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时 至 今日 ，Hadoop 已 形成 了 较为 成 熟 、 持 续 发 展 的 生态 圈 。2016 年 是 Hadoop 发 展 的 第 
十 个 年 头 ， 从 v1 到 v2， 再 到 将 要 发 布 的 3.0.0-GA， 其 功能 、 性 能 、 稳 定性 及 可 用 性 均 得 
到 了 极 大 的 提升 。Hadoop 在 业界 和 学 术 界 快速 地 渗透 、 迭 代 和 普及 ， 已 经 成 为 了 数据 处 
理 领 域 最 为 基础 的 技术 选 型 和 基本 架构 。 承 担 底层 分 布 式 存储 的 HDFS、 经 典 的 分 布 式 
计算 模型 MapReduce， 以 及 成 熟 的 资源 管理 任务 调度 框架 YARN 一 同 构 成 了 传统 概念 上 
的 Hadoop。 而 基于 Hadoop 的 各 个 组 件 也 在 竹 勃 发 展 : 进行 内 存 返 代 计 算 的 新 一 代 类 原 之 
火 Spark 已 至 2.0.2 (2016 年 11 月 14 日 )， 能 将 SQL 转化 成 多 种 执行 引擎 (MapReduce、 
Tez、Spark) 的 Hive 已 至 2.1.0 (2016 年 6 月 20)， 提 供 键 值 对 存 取 的 多 版 本 海量 数据 库 
HBase 已 至 1.2.4 (2016 年 11 月 7 日 )。Hadoop 生态 圈 日 趋 庞大 ， 各 种 各 样 的 自由 软件 已 
逾 百 种 (参见 http:/hadoopecosystemtable.github.io ) 。 


Hadoop 凭借 开源 社区 的 贡献 者 和 布道 师 打造 分 布 式 环境 下 的 大 数据 生态 。 然 而 ， 在 大 批 
软件 不 断 诵 现 的 背景 下 ， 也 有 一 些 曾 风光 无 限 或 靳 露头 角 的 项 目 销声匿迹 。 开 源 社 区 中 最 
为 成 功 的 产品 非 Linux 莫 属 。 在 灵魂 人 物 Linus Torvalds 的 带领 下 ，Linux 进入 服务 器 及 
柑 入 式 设备 等 领域 ， 占 领 了 操作 系统 的 天 下 ， 又 和 Android 一 起 占据 了 移动 市 场 的 大 半 江 
山 ， 在 桌面 市 场 也 有 所 斩获 。 众 多 Linux 发 行 版 大 都 将 常用 软件 打包 在 内 ， 并 维护 有 自己 
的 软件 仓库 ， 通 过 版 本 升级 迭代 增加 新 的 功能 、 修 复 旧 的 Bug， 这 些 技术 支持 和 服务 都 大 
大 提高 了 Linux 的 易 用 性 。 与 开源 前 辈 Linux 类 似 ，Doug Cutting 大 牛 开创 的 Hadoop 运行 
在 廉价 商用 服务 右上， 以 集群 之 力 ， 分 而 治之 地 解决 先前 传统 数据 库 、 传 统 存 储 、 传 统计 
算 模型 束手无策 的 问题 ， 让 大 规模 数据 的 处 理 成 为 了 可 能 。 而 Hadoop 很 早 就 进入 了 发 行 
版 时 代 ， 国 外 的 Cloudera、Hortonworks、DataBricks、MapR、EMC 等 公司 及 国内 的 华为 
与 星 环 都 推出 了 自己 的 定制 发 行 版 本 ， 各 具 特 色 地 打包 和 修改 Hadoop 生态 系统 的 软件 、 
提供 BugFix 和 Backport 的 Patch， 以 及 对 应 的 增值 服务 和 技术 支持 ， 如 耳熟能详 的 CDH、 
HDP 等 。Amazon 的 EMR、 阿 里 云 的 MaxCompute ( 原 ODPS)、 百 度 的 BMR 也 是 类 似 的 
产品 。 开 源 社区 与 企业 有 着 不 尽 相同 的 业务 场景 和 技术 路 线 ， 单 就 交互 式 SQL 引擎 来 讲 ， 
Cloudera 力 推 的 Impala 及 优化 存储 Kudu、Hortonworks 持续 优化 的 Hive、Spark 生态 中 原 
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生 的 Spark SQL、Facebook 的 Presto、EMC 的 HAWQ、MapR 的 Drill 以 及 基于 HBase 的 
Kylin 和 Phoenix 都 是 SQL-on-Hadoop， 但 各 有 千秋 。Hadoop 生态 呈现 碎片 化 趋势 的 同时 ， 
也 有 了 百家争鸣 的 氛围 。 而 开源 与 企业 的 结合 ， 让 Hadoop 生态 良性 发 展 ， 也 让 数据 唾 手 
可 得 。 作 为 开发 者 和 用 户 ， 想 要 了 解 、 使 用 、 融 入 开源 ， 除 了 各 种 博客 、 论 坛 、 会 议 以 及 
邮件 列表 之 外 ， 阅 读 文 档 和 代码 是 不 二 之 选 。 


关于 本 书 


本 书 系统 地 展现 了 Hadoop 生态 圈 的 全 景 图 ， 能 够 在 面向 问题 解决 的 各 种 博客 、 论 坛 以 及 
邮件 列表 之 外 ， 让 读者 可 以 在 了 解 了 整体 架构 和 基本 原理 之 后 更 好 地 去 应 用 和 实施 ， 是 一 
本 面向 体系 建设 和 应 用 实现 的 教科 书 。 所 谓 磨 刀 不 误 砍 柴 工 ， 面 向 问题 解决 的 思路 如 同 充 
饥 果 腹 的 快餐 ， 常 常会 急匆匆 地 解决 问题 ， 或 不 知 其 所 以 然 、 或 不 小 心 埋 下 这 坑 、 或 错失 
了 更 好 的 方案 ， 而 构建 在 基础 知识 和 理论 之 上 的 架构 体系 和 应 用 经 验 则 是 均衡 营养 、 合 理 
膳食 的 大 餐 ， 带 来 健康 完善 的 思路 、 可 以 少 走 弯路 、 规 避风 险 。 更 可 贵 的 是 ， 本 书 的 第 二 
部 分 专门 介绍 了 大 数据 领域 常见 的 三 类 应 用 场景 ， 相 信 可 以 提高 读者 拆 解 业务 需求 、 进 行 
技术 选 型 、 更 好 地 实现 应 用 的 能 
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感谢 本 书 的 编辑 朱 锡 、 岳 新 欣 、 谢 婷 婷 、 张 避 ， 不 辞 辛苦 地 修改 我 扭曲 的 文字 ， 让 它 可 见 
天 肯 8 

感谢 影响 着 我 人 生 观 价值 观 的 祖父 母 及 父母 ， 让 我 可 以 安稳 地 长 大 成 人 ， 愿 他 们 一 世 安 
详 、 永 世 安 康 ， 感 谢 我 的 妻子 长 久 以 来 的 支持 和 付出 ， 愿 我 们 分 享 阳光 、 分 担 风 雨 ， 一 同 
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欢迎 大 家 搜索 “Hadoop 应 用 架构 ”QQ 群 或 直接 输入 “345527351” 群 号 ， 加 入 本 书 的 读 
者 QQ 群 ， 交 流 大 数据 的 那些 事 儿 ， 解 决 大 数据 相关 的 各 种 问题 。 

是 为 序 。 
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2016 年 11 月 20 日 于 北京 
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在 过 去 的 十 年 中 ，Apache 软件 基金 会 的 Hadoop 项 目 迁 牵 发展、 欣欣向荣。 


Hadoop 起 初 是 Nutch 项 目的 一 部 分 ， 旨 在 提供 一 种 前 景 远大 的 功能 一 一 通过 扩展 的 方式 支 
持 到 PB 级 数据 的 处 理 。2005 年 ，Hadoop 最 多 只 能 在 几 十 台 机 器 上 运行 ， 并 且 很 不 完善 。 
只 有 一 小 部 分 人 拿 Hadoop 做 做 试验 ， 练 练 手 。 然 而 ， 一 些 人 看 到 了 它 的 前 景 与 趋势 ， 一 
种 经 济 的 、 可 扩展 的 、 通 用 的 数据 存储 和 处 理 框架 ， 有 着 广阔 的 实用 价值 。 


到 2007 年 ，Hadoop 的 高 扩展 性 在 Yahoo! 公司 得 到 了 证 实 。 目 前 Hadoop 已 经 可 以 在 数 千 
台 机 器 上 可 靠 地 运行 了 。Yahool! 是 第 一 个 将 Hadoop 用 于 产品 级 应 用 的 公司 ， 而 后 其 他 互 
联网 公司 也 相继 使 用 ， 如 Facebook、LinkedIn 以 及 Twitter 等 。 虽 然 这 个 时 期 的 Hadoop 在 
PB 级 的 数据 处 理 上 拥有 良好 的 扩展 性 ， 但 考虑 到 无 安全 控制 和 只 有 Java 语言 的 批 处 理 接 
口 ， 真 正 使 用 的 话 成 本 较 高 。 


再 后 来 ，Hadoop 作为 一 个 复杂 生态 系统 的 核心 ， 增 加 了 细 粒 度 的 安全 控制 、 组 件 的 高 可 
用 性 (High Available，HA) 以 及 通用 的 调度 器 (YARN，Yet Another Resource Negotiator， 
另 一 种 资源 协调 者 ) 。 


围绕 Hadoop 这 一 核心 ， 产生 了 一 大 批 不 同类 型 的 工具 。 拿 HBase 与 Accumulo 来 说 ， 它 
门 都 能 够 提供 在 线 的 键 值 对 存储 ， 快 速 响应 交互 式 的 应 用 访问 。 而 其 他 一 些 工 具 ， 如 
Flume、Sqoop 以 及 Apache Kafka， 能 够 帮助 完成 数据 在 Hadoop 存储 层 上 的 接 入 与 导出 。 
而 Pig、Crunch 以 及 Cascading 提供 了 增强 版 的 API。SQL 查询 能 够 通过 Apache Hive 与 
Cloudera Impala 处 理 。Apache Spark 算是 一 个 超级 明星 ， 能 够 提供 更 强大 、 更 优化 的 批 处 
理 API[， 同 时 还 支持 实时 流 处 理 、 图 数据 处 理 与 机 器 学 习 。Apache Oozie 与 Azkaban 能 够 
协调 和 调度 以 上 工具 。 


是 不 是 对 这 些 感到 有 些 迷 惑 呢 ? 邑 开 Hadoop 生态 系统 的 大 门 ， 一 大 波 工 具 正 测 涌 地 扑面 
而 来 。 要 想 高 效 利用 这 一 新 平台 ， 需 要 理解 这 些 工具 之 间 是 如 何 适 配 的 ， 以 及 哪个 对 你 
所 帮助 。 本 书 作 者 在 基于 Hadoop 构建 应 用 系统 方面 均 拥有 多 年 经 验 ， 本 书 就 是 这 些 经 验 


和 智慧 的 结晶 。 
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里 论 上 来 说 ， 有 各 种 各 样 的 方式 配置 和 连接 这 些 工 具 。 但 是 实际 上 ， 工 具 的 使 用 存在 着 成 
功 的 模式 。 本 书 描述 了 最 好 的 实践 经 验 ， 讲 述 每 个 工具 的 内 光 点 ， 以 及 怎样 才能 针对 特定 
的 任务 发 挥 该 工具 的 最 大 人 作用。 另外， 本 书 也 提供 了 一 些 常见 的 用 例 。 最 初 的 使 用 者 都 没 
多 少 经 验 ， 尝 试 过 各 种 工具 的 整合 ， 但 是 本 书 描述 了 已 被 反复 证 明 有 效 的 模式 ， 可 以 为 读 
者 节省 大 量 的 探索 时 间 。 

本 书 作者 提供 了 使 用 这 一 强大 平台 所 需要 的 基础 知识 。 享 受 这 本 书 吧 ， 让 它 帮助 你 创建 优 
秀 的 Hadoop 应 用 ! 


























Doug Cutting 
加 州 院内 棚 中 
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毫 不 夸张 地 说 ， 在 数据 管理 和 数据 处 理 领 域 ，Apache Hadoop 带 来 了 革命 性 的 进展 。 
Hadoop 的 技术 能 力 ， 使 得 许多 行业 中 的 组 织 能 够 解决 以 往 技术 不 可 能 解决 的 问题 。 这 些 
能 力 包括 : 

。 大 规模 数据 的 高 扩展 性 处 理 ，; 
。 不 管 什 么 格式 和 结构 (或 者 缺少 结构 ) 的 数据 ， 都 可 灵活 地 处 理 。 


Hadoop 另外 一 个 值得 注意 的 特点 在 于 ， 它 是 一 个 意 在 相对 廉价 的 商用 硬件 上 运行 的 开源 
项 目 。 相 对 于 传统 的 数据 管理 解决 方案 来 讲 ，Hadoop 在 可 以 接受 的 成 本 范围 内 ， 提 供 了 
高 扩展 性 和 灵活 性 。 

强大 的 技术 能 力 ， 加 上 和 较 低 的 经 济 成 本 ， 使 得 Hadoop 及 其 生态 系统 中 的 诸多 工具 快速 发 
展 。 而 且 ， 活 跃 的 Hadoop 社区 也 引入 了 大 量 支 持 Hadoop 数据 管理 和 处 理 的 工具 和 组 件 。 


尽管 发 展 迅速 ，Hadoop 仍 是 一 项 相对 年 轻 的 技术 。 许 多 组 织 仍 在 尝试 了 解 如 何 使 用 
Hadoop 来 解决 问题 ， 以 及 如 何 将 Hadoop 及 相关 工具 应 用 到 真实 场景 中 来 形成 解决 方案 。 
Hadoop 生态 系统 包含 许多 工具 、 应 用 编程 接口 (Application Programming Interface，API) 
及 开发 选项 ， 这 为 开发 人 员 提供 了 更 多 的 选择 余地 和 更 大 的 灵活 性 ， 但 也 使 得 选择 最 佳 的 
工具 来 实现 数据 处 理应 用 成 为 了 一 项 挑战 。 


我 们 在 与 大 量 客户 协作 的 过 程 中 ， 在 与 想 要 了 解 如 何 构建 可 靠 、 高 扩展 的 Hadoop 应 用 的 
Hadoop 用 户 交流 的 过 程 中 ， 积 累 了 一 些 经 验 ， 受 此 启发 编写 了 本 书 。 本 书目 标 并 非 为 现 
存 的 工具 提供 详尽 的 文档 描述 ， 而 是 在 基于 Hadoop 使 用 这 些 工具 建设 可 扩展 和 可 维护 的 
应 用 架构 方面 ， 提 供 指引 。 

我 们 假定 本 书 读者 对 Hadoop 及 相关 工具 有 一 定 的 经 验 。 读 者 应 熟悉 Hadoop 的 核心 组 件 ， 
如 Hadoop 分 布 式 文件 系统 (Hadoop Distributed File System，HDFS) 及 MapReduce。 关 于 
Hadoop 及 其 核心 概念 ， 可 参见 Tom White 的 《Hadoop 权威 指南 》， 这 本 书 的 确 文 如 其 名 。 


下 面 介绍 本 书 中 涉及 的 一 系列 比较 重要 的 工具 和 技术 ， 包 括 扩 展 阅 读 的 参考 资料 。 
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YARN 

直到 不 和 久 前 ，Hadoop 的 核心 组 件 通 向 被 认为 是 HDFS 和 MapReduce。 随 着 Hadoop 中 
一 个 处 理 框架 的 引入 ， 这 种 情况 迅速 发 生 了 改变 。 由 于 YARN 的 引入 ，Hadoop 快速 转 
型 成 为 一 个 支持 多 种 并 行 处 理 模型 的 大 数据 平台 。YARN 为 Hadoop 数据 处 理 提供 了 
通用 的 资源 管理 器 和 调度 器 ， 不 仅 包 括 MapReduce， 还 支持 其 他 的 数据 处 理 模型 。 这 
使 得 在 单个 Hadoop 集群 上 可 以 支持 多 个 处 理 框架 和 多 样 的 工作 负载 ， 并 使 得 这 些 不 
同 的 模型 和 负载 可 以 有 效 地 共享 资源 。 关 于 YARN， 欲 了 解 更 多 ， 可 参见 《Hadoop 权 
威 指南 》 或 Apache YARN 官方 文档 (http://hadoop.apache.org/docs/current/hadoop-yarn/ 
hadoop-yarn-site/YARN.html) 。 







































































Java 

Hadoop 和 与 之 相关 的 许多 工具 都 是 使 用 Java 语言 编写 的 ， 并 且 许 多 基于 Hadoop 的 应 
用 开发 也 是 使 用 Java 语言 。 虽 然 面向 非 Java 开发 者 的 工具 和 概念 不 断 涌现 ， 但 是 对 于 
使 用 Hadoop 的 用 户 来 讲 ， 了 解 Java 仍然 是 弥 足 轻重 的 。 

SQL 

虽然 Hadoop 为 数据 打开 了 多 种 处 理 框 架 之 门 ， 但 SQL 仍然 是 Hadoop 数据 查询 的 常用 
接口 。 这 是 因为 大 量 的 开发 人 员 和 分 析 人 员 熟 悉 SQL， 所 以 使 用 Hadoop 时 了 解 如 何 写 
SQL 仍然 是 很 有 意义 的 。 关 于 SQL 的 介绍 ， 可 以 参考 Lynn Beighley 编写 的 Head First 
SOL。 








Scala 

Scala 是 一 种 在 Java 虚拟 机 (Java Virtual Machine，JVM) 上 运行 的 编程 语言 ， 它 支持 
面向 对 象 编程 和 国 数 式 编程 模型 。 虽 然 Scala 是 面向 通用 场景 的 编程 语言 ， 但 是 它 已 成 
为 大 数据 领域 越 来 越 流行 的 语言 了 。 无 论 是 在 与 Hadoop 交互 的 项 目 实现 中 ， 还 是 处 理 
数据 的 应 用 开发 中 ， 皆 是 如 此 。 使 用 Scala 作为 基础 实现 语言 的 项 目 如 Apache Spark 和 
Apache Kafka。 因 此 ， 基 于 Spark 的 应 用 开发 也 支持 使 用 Scala。 在 本 书 中 ， 许 多 示例 
也 是 使 用 Scala 编写 的 。 如 果 需 要 了 解 Scala， 可 参见 Cay S. Horstmann 所 著 的 《 快 学 
Scala》; 若 想 深入 了 解 ， 请 参考 Dean Wampler 和 Alex Payne 合 著 的 《Scala 程序 设计 
(第 2 版 )》'。 

Apache Hive 

提 到 SQL， 不 得 不 提 Hive， 它 是 一 个 用 于 Hadoop 数据 处 理 和 数据 建 模 的 非常 流行 的 
工具 ,提供 HDFS 上 数据 的 结构 化 定义 ， 及 数据 的 类 SQL 查询 功能 。Hive 项 目 中 包 
含有 一 个 元 数据 存储 ， 它 不 仅 以 Hive 的 数据 结构 来 存储 元 数据 信息 (就 是 描述 数据 
的 数据 )， 还 可 供 其 他 组 件 访问 ， 如 Apache Pig (一 个 更 高 一 层 的 并 行 编程 抽象 ) 和 
MapReduce， 其 中 后 者 需要 借助 HCatalog 组 件 。 另 外 ， 其 他 开源 项 目 一 一 如 Cloudera 
Impala， 一 个 Hadoop 之 上 的 低 延 迟 查 询 引擎 也 可 以 使 用 Hive 的 元 数据 存储 服务 ， 
该 服务 可 以 提供 对 Hive 中 预先 定义 的 对 象 的 访问 。 关 于 Hive， 欲 了 解 更 多 ， 请 参见 
Hive 网 站 (https://hive.apache.org/)、《Hadoop 权威 指南 》， 或 Edward Capriolo 等 人 所 著 
的 《Hive 编程 指南 》。 































































































注 1: 本 书 已 由 人 民 邮 和 
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。 Apache HBase 
HBase 是 Hadoop 生态 圈 中 另外 一 个 频繁 使 用 的 组 件 。 它 是 一 个 分 布 式 NoSQL 数据 存 
储 ， 提 供 HDFS 上 超大 规模 数据 集 的 随机 访问 。 虽 然 被 称 为 Hadoop 数据 库 ， 但 HBase 
与 关系 型 数据 库 截然 不 同 ， 熟 悉 传 统 关 系 型 数据 库 系统 的 人 要 想 了 解 HBase， 需 接受 新 
的 概念 。HBase 是 许多 Hadoop 架构 中 的 一 个 核心 组 件 ， 本 书 中 多 有 涉及 。 欲 了 解 更 多 
有 关 HBase 的 内 容 ， 可 参考 HBase 网 站 (https:Whbase.apache.org/) 、Edward Capriolo 所 
车 的 《HBase 权威 指南 》， 或 Nick Dimiduk 和 Amandeep Khurana 合 著 的 《HBase 实战 》。 











。 Apache Flume 
Flume 是 一 个 常用 的 数据 采集 工具 ， 将 基于 事件 的 数据 〈 如 日 志 ) 转 存 至 Hadoop。 我 
们 就 Flume 的 最 佳 实践 和 部 署 架 构 进 行 了 整体 总 结 和 细节 描述 。 关 于 Flume 的 更 多 细 
节 ， 可 参见 Flume 文档 (http://flume.apache.org/documentation.html) ， 或 《Flume: 构建 
高 可 用 、 可 扩展 的 海量 日 志 采 集 系统 》。 

。 Apache Sqoop 
Sqoop 是 Hadoop 生态 圈 中 另外 一 个 流行 的 工具 ， 它 用 来 在 外 部 数据 存储 (如 关系 型 数 
据 库 ) 与 Hadoop 之 间 进 行 数据 移动 。 我 们 会 讨论 Sqoop 的 最 佳 实践 ， 以 及 在 Hadoop 
架构 中 它 的 最 佳 位 置 。 关 于 Sqoop 的 更 多 细节 ， 可 参见 Sqoop 文档 (http://sqoop. 
apache.org/docs/1.4.5/index.html) ， 或 Apache Sqoop Cookbook (O’Reilly)。 





























。 Apache ZooKeeper 
恰 如 其 名 的 ZooKeeper 项 目 旨 在 提供 一 个 集中 化 的 服务 ， 用 来 保障 Hadoop 生态 圈 中 
各 个 项 目 间 的 协同 工作 。 本 书 中 提 及 的 大 量 组 件 ， 如 HBase， 就 依赖 于 ZooKeeper 提 
供 的 服务 ， 所 以 对 Zookeeper 有 基本 的 了 解 是 有 益处 的 。 参 考 ZooKeeper 网 站 (http:/ 
Zookeeper.apache.org)， 或 Flavio Junqueira 和 Benjamin Reed 合理 的 《ZooKeeper: 分 布 
式 过 程 协 同 技术 详解 》。 
由 此 可 见 ， 本 书 的 重点 在 于 Hadoop 生态 圈 中 的 开源 工具 。 值 得 注意 的 是 ， 很 多 传统 企业 
级 软件 厂家 提供 了 对 Hadoop 的 支持 ,或 者 处 于 添加 支持 的 过 程 中 。 如 果 你 所 在 的 公司 已 
经 使 用 了 这 样 的 企业 级 工具 ， 那 么 尝试 将 这 类 工具 集成 到 你 的 Hadoop 应 用 开发 环境 中 是 
大 有 神 益 的 。 毕 竟 完 成 一 项 任务 最 好 的 工具 是 先前 已 经 熟悉 的 工具 。 虽 然 了 解 本 书 中 提 及 
的 工具 ， 了 解 它 们 是 如 何 集 成 到 Hadoop 中 实现 应 用 的 ， 这 些 都 是 有 意义 的 ， 不 过 在 你 的 
环境 中 选择 使 用 第 三 方 工具 也 是 一 个 不 错 的 选择 。 
重申 一 下 ， 本 书 的 目标 不 是 介绍 具体 如 何 使 用 各 种 工具 ， 而 是 讲述 什么 时 候 和 为 什么 使 用 
这 样 那样 的 工具 ， 同 时 介绍 最 佳 实践 ， 以 及 最 佳 实践 适用 时 的 建议 和 不 适用 时 的 调整 方 
法 。 我 们 希望 本 书 能 够 对 你 构建 成 功 的 Hadoop 解决 方案 有 所 帮助 。 


示例 代码 


就 本 书 中 的 示例 代码 简单 声明 如 下 。 我 们 尽量 保证 本 书 中 的 示例 是 最 新 的 ， 并 确保 
其 正确 性 。 获 取 最 新 版 本 示例 代码 ， 请 访问 本 书 的 GitHub 地 址 : https://github.com/ 
hadooparchitecturebook/hadoop-arch-book。 
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目标 读者 


本 书面 向 软件 开发 人 员 、 架 构 师 及 项 目 主管 等 ， 满 足 大 家 了 解 Apache Hadoop 及 生态 圈 中 
工具 的 使 用 方法 、 建 设 端 到 端 数据 管理 方案 、 集 成 Hadoop 到 已 有 数据 管理 架构 等 需求 。 
我 们 的 目标 并 不 是 深入 研究 特定 的 技术 ， 比 如 MapReduce， 因 为 已 有 其 他 相关 的 参考 资 
料 。 我 们 的 目标 是 : 介绍 如 何 高 效 地 集成 Hadoop 生态 圈 中 的 组 件 ， 以 形成 一 个 从 原始 数 
据 开始 直到 数据 消费 掉 的 完整 数据 流水 线 ， 以 及 如 何 将 Hadoop 集成 到 已 有 的 数据 管理 系 
统 之 中 。 


我 们 假定 读者 对 Hadoop 及 相关 工具 (如 Flume、Sqoop、HBase、Pig 及 Hive 等 ) 有 所 了 
解 ， 但 我 们 也 提供 了 合适 的 参考 资料 作为 补充 内 容 。 我 们 假定 读者 拥有 Java 编程 经 验 ， 以 
及 SQL 和 传统 数据 管理 系统 (如 关系 型 数据 库 管理 系统 ) 的 使 用 经 验 。 


如 果 你 是 一 名 拥有 Hadoop 背景 的 技术 专家 ， 想 要 寻求 架构 或 完整 方案 设计 方面 的 最 佳 实 
践 或 者 示例 ， 那 么 本 书 再 合适 不 过 了 。 即 使 你 是 一 名 Hadoop 专家 ， 我 们 认为 本 书 基于 我 
们 使 用 Hadoop 的 多 年 经 验 ， 包 含 了 许多 指引 和 最 佳 实践 ， 仍 然 会 让 你 有 所 受益 。 


通过 本 书 ， 管理 人 员 可 基于 实际 的 目标 和 项 目 情况 ， 了 解 何 种 技术 适用 ， 从 而 为 开发 者 选 
择 合适 的 培训 。 


写作 目的 


多 年 以 来 ， 我 们 使 用 Hadoop 构建 大 数据 解决 方案 ， 无论 是 作为 用 户 还 是 做 客户 支持 ， 积 
累 了 一 些 经 验 。 同 时 ，Hadoop 市 场 也 迅速 成 熟 起 来 ， 关 于 深入 了 解 Hadoop 这 一 题材 的 资 
料 也 大 量 涌现 。 关 于 Hadoop 及 生态 圈 的 相关 工具 ， 有 大 量 的 书籍 、 网 站 、 课 程 等 。 尽 管 
有 如 此 多 的 资料 ， 但 在 “有 效 集成 这 些 工具 以 形成 完整 的 解决 方案 ”这 一 主题 上 ， 相 关 资 
源 仍 显 不 足 。 

与 用 户 沟通 时 ， 无 论 这 些 用 户 是 我 们 的 客户 、 合 作 伙伴 ， 还 是 与 会 人 员 ， 我 们 发 现 了 一 个 
共同 的 现象 : 在 “对 Hadoop 有 所 了 解 ” 与 “能 够 使 用 Hadoop 解决 实际 问题 ”之 间 存 在 着 
巨大 的 鸿沟 。 举 例 来 说 ， 市 面 上 有 大 量 不 错 的 资料 可 以 帮助 你 了 解 Apache Flume， 但 是 如 
何 判断 这 个 工具 是 否 适 合 你 的 用 例 呢 ? 而 且 ， 一 旦 确定 选择 了 Flume 作为 解决 方案 ， 怎 样 
才能 把 它 高 效 地 集成 到 架构 中 呢 ? 为 了 高 效 地 使 用 Flume， 需 要 知道 哪些 最 佳 实践 ， 以 及 
需要 做 出 哪些 考量 ? 

本 书 的 目的 就 是 缩小 “对 Hadoop 有 所 了 解 ”与 “能 够 使 用 Hadoop 形成 实际 解决 方案 ”之 
间 的 差距 。 书 中 会 介绍 利用 Hadoop 实现 解决 方案 时 需要 考虑 的 核心 内 容 ， 并 针对 几 个 党 
见 的 用 案 提供 完整 的 、 端 到 端的 解决 方案 示例 。 


本 书 结构 


本 书 内 容 是 按照 在 Hadoop 上 搭建 解决 方案 的 流程 组 织 的 ， 首 先是 Hadoop 上 的 数据 建 模 ， 
接 下 来 是 将 数据 导入 和 导出 Hadoop， 以 及 数据 落地 到 Hadoop 之 后 的 数据 处 理 ， 等 等 。 当 
然 ， 读 者 可 以 按照 实际 需求 跳 过 部 分 内 容 。 第 一 部 分 主要 涵盖 了 使 用 Hadoop 创建 应 用 程 
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序 时 需要 考虑 的 问题 ， 包 括 以 下 几 章 。 

。 第 1 章 的 内 容 是 Hadoop 中 的 数据 存储 和 数据 建 模 ， 例 如 文件 格式 、 数 据 组 织 及 元 数据 
管理 。 

。 第 2 章 的 内 容 是 Hadoop 上 的 数据 导入 和 导出 。 这 一 章 将 会 讨论 数据 采集 和 抽取 时 需要 
考虑 的 问题 和 模式 ， 包 括 常见 工具 的 使 用 ， 如 Flume、Sqoop 和 文件 传输 。 

。 第 3 章 介 绍 Hadoop 上 访问 和 处 理 数据 的 工具 和 模式 。 我 们 会 在 这 一 章 讨 论 常 见 的 数据 
处 理 框架 ， 如 MapReduce、Spark、Hive 和 Impala， 以 及 各 自 适 合 的 应 用 场景 。 

。 第 4 章 通过 讲述 Hadoop 上 一 些 常 见 用 例 的 实现 方案 来 继续 讨论 数据 处 理 框架 。 我 们 会 
使 用 Spark 和 SQL 实现 具体 的 例子 ， 来 阐释 如 何 解决 常见 问题 ， 比 如 数据 去 重 和 时 间 
序列 数据 的 处 理 。 

。 第 5 章 主要 讨论 在 Hadoop 上 处 理 海 量 图 数据 的 工具 ， 如 Giraph 和 GraphX。 

。 第 6 章 讨论 将 各 种 过 程 与 应 用 协调 和 调度 工具 (如 Apache Oozie) 整合 在 一 起 。 

。 第 7 章 讨论 Hadoop 上 的 近 实 时 处 理 。 我 们 在 这 里 会 讨论 相对 较 新 的 流 式 数据 处 理工 具 ， 
如 Apache Storm 和 Apache Spark Streaming。 

在 第 二 部 分 中 ， 我 们 将 会 在 Hadoop 上 端 到 端 地 实现 一 些 常见 的 应 用 程序 。 这 儿童 的 目的 

在 于 提供 翔实 的 案例 ， 讲 述 如 何 使 用 第 一 部 分 中 提 到 的 各 个 组 件 ， 来 实现 一 个 基于 Hadoop 

的 完整 解决 方案 。 

。 第 8 章 介绍 了 一 个 基于 Hadoop 的 点 击 流 分 析 的 示例 。 对 于 运行 大 型 网 站 的 公司 来 讲 ， 
点 击 流 数 据 的 存储 和 处 理 是 一 个 非常 常见 的 用 例 。 它 也 适用 于 处 理 任 何 机 器 数据 的 应 用 。 
这 一 章 中 ， 我 们 会 讨论 使 用 Flume 和 Kafka 这 样 的 工具 进行 数据 采集 ， 讨 论 如 何 高 效 地 
存储 和 组 织 数 据 ， 并 展示 处 理 数据 的 示例 。 

。 第 9 章 介 绍 了 一 个 基于 Hadoop 的 欺诈 检测 应 用 的 示例 ， 这 是 Hadoop 一 个 日 益 常 用 的 
应 用 场景 。 这 一 示例 将 会 涵盖 在 欺诈 检测 的 解决 方案 中 如 何 使 用 HBase， 以 及 如 何 使 用 
近 实 时 处 理 。 

。 第 10 章 的 案例 研究 探索 的 是 另外 一 个 常见 用 例 : 使 用 Hadoop 扩展 已 有 的 企业 级 数据 
仓库 (Enterprise Data Warehouse，EDW) 环境 。 这 包括 将 Hadoop 作为 EDW 的 补充 ， 

并 提供 传统 数据 仓库 的 基本 功能 。 


排版 约定 
本 书 使 用 了 下 列 排版 约定 。 
。 楷体 
表示 新 术 话 。 
。 等 宽 字 体 (Constant width) 
表示 程序 片段 ， 以 及 正文 中 出 现 的 变量 、 函 数 名 、 数 据 库 、 数 据 类 型 、 环 境 变 量 、 语 句 
和 关键 字 等 。 
。 加 粗 等 宽 字体 (Constant width bold) 
表示 应 该 由 用 户 输入 的 命令 或 其 他 文本 。 
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。 等 宽 斜 体 (Constant width italic) 
表示 应 该 由 用 户 输入 的 值 或 根据 上 下 文 确定 的 值 替 换 的 文本 。 











该 图 标 表示 提示 、 建 议 或 一 般 注 记 。 











使 用 代码 示例 


补充 材料 (代码 示例 、 练 习 等 ) 可 以 从 https://github.com/hadooparchitecturebook/hadoop- 
arch-book 下 载 。 

本 书 是 要 帮 你 完成 工作 的 。 一 般 来 说 ， 如 果 本 书 提供 了 示例 代码 ， 你 可 以 把 它 用 在 你 的 程 
序 或 文档 中 。 除 非 你 使 用 了 很 大 一 部 分 代码 ， 否 则 无 需 联 系 我 们 获得 许可 。 比 如 ， 用 本 书 
的 几 个 代码 片段 写 一 个 程序 就 无 需 获 得 许可 ， 销 售 或 分 发 O'Reilly 图 书 的 示例 光盘 则 需要 
获得 许可 ;引用 本 书 中 的 示例 代码 回答 问题 无 需 获得 许可 ， 将 书 中 大 量 的 代码 放 到 你 的 产 
品 文档 中 则 需要 获得 许可 。 

我 们 很 希望 但 并 不 强制 要 求 你 在 引用 本 书 内 容 时 加 上 引用 说 明 。 引 用 说 明 一 般 包括 书 
名 、 作 者 、 出 版 社 和 JSBN。 比 如 :“Eaudoop Application Architectures by Mark Grover, Ted 
Malaska, Jonathan Seidman, and Gwen Shapira (O’Reilly). Copyright 2015 Jonathan Seidman, 
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第 1 章 


Hadoop 数 据 建 模 





本 质 上 讲 ，Hadoop 是 一 种 分 布 式 数据 存储 ， 它 为 实现 强大 的 并 行 处 理 框架 提供 了 平台 。 该 
存储 平台 能 在 存储 海量 数据 时 保证 高 度 的 可 靠 性 ， 同 时 具有 灵活 性 ， 可 以 支持 多 个 处 理 杠 
架 的 运行 。 因 此 ，Hadoop 成 为 了 数据 中 心 的 绝 佳 选择 。 有 了 这 样 的 特性 ，Hadoop 能 够 让 
你 按 原样 存储 任何 一 种 类 型 的 数据 ， 对 于 数据 的 处 理 方式 没有 任何 限制 。 


提 到 Hadoop， 我 们 常 听 到 Schema-on-Read 这 个 词 。 简 单 来 讲 ， 它 指 的 是 ， 未 经 处 理 的 原 
始 数 据 直接 加 载 到 Hadoop 中 ， 应 用 程序 在 处 理 这 些 数据 时 ， 按 照 需求 暴露 数据 的 结构 。 


通常 在 传统 数据 管理 系统 中 应 用 的 Schema-on-Write 则 不 同 。 这 种 类 型 的 系统 要 求 在 载 入 
数据 之 前 定义 好 存储 模式 。 于 是 ， 数 据 需 要 先 做 好 分 析 、 建 模 、 转 换 、 加 载 、 测 试 等 一 系 
列 工 作 ， 然 后 才 可 以 访问 。 另 外 ， 如 果 中 间 出 现 了 决策 错误 或 者 需求 变更 ， 就 必须 重新 开 
台 这 一 连 串 的 工作 。 如 果 尚 未 充分 理解 数据 的 结构 或 应 用 的 特点 ， 用 户 可 以 通过 灵 话 的 
Schema-on-Read 模式 将 数据 的 可 见 时 间 提 前 ， 这 一 点 难能可贵 。 
关系 型 数据 库 与 数据 仓库 一 般 适 合 进行 常用 的 查询 及 报表 访问 ， 并 且 仅 针对 价值 较 高 的 数 
据 。 然 而 ，Hadoop 正 越 来 越 多 地 承担 起 这 类 工作 ， 需 要 在 海量 数据 集 上 进行 查询 操作 时 
尤其 如 此 。 面 对 这 样 的 数据 量 ， 传 统 系统 不 是 经 济 成 本 过 高 ， 就 是 技术 尚 有 欠缺 。 
存储 所 有 原始 数据 是 一 项 非常 强大 的 功能 ， 但 数据 导入 Hadoop 之 前 ， 还 是 需要 慎重 考虑 
多 种 因素 ， 包 括 以 下 几 点 。 
。 数据 存储 格式 
Hadoop 支持 多 种 文件 格式 与 压缩 格式 。 每 一 种 都 有 独特 的 优势 ， 各 自 适 合 特定 的 应 用 。 
Hadoop 提供 了 用 于 存储 数据 的 HDFS (Hadoop Distributed File System) ， 不 过 还 有 另外 
一 些 基于 HDFS 的 系统 也 很 常用 ， 如 提供 数据 (随机) 访问 功能 的 HBase 与 提供 数据 
( 表 模 式 ) 管理 功能 的 Hive。 这 些 系统 也 应 当 考 虑 。 
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多 租户 

集群 通常 可 以 支持 多 个 用 户 、 多 个 组 以 及 多 种 应 用 类 型 。 如 果 计 划 使 用 Hadoop 来 存储 
和 管理 数据 ， 那 么 需要 在 多 租户 (multitenancy) 支持 方面 多 加 考虑 。 

模式 设计 

尽管 Hadoop 本 质 上 不 关注 模式 ， 但 是 仍然 需要 考虑 Hadoop 中 数据 的 存储 结构 。 这 主 
要 包括 将 数据 加 载 至 HDFS 的 目录 结构 ， 以 及 数据 处 理 与 数据 分 析 的 输出 目录 结构 。 如 
果 将 数据 存储 到 HBase 和 Hive 这 类 系统 中 ， 则 需 考 虑 对 应 的 数据 模式 设计 。 

元 数据 管理 

像 所 有 数据 管理 系统 一 样 ， 描 述 存储 数据 的 元 数据 往往 和 数据 本 身 并 重 。 对 于 元 数据 管 
理 的 理解 以 及 相关 决策 不 可 轻视 。 


















































本 音 将 讨论 这 些 内 容 。 值 得 注意 的 是 ， 这 些 考 虑 因素 是 基于 Hadoop 构建 应 用 的 基础 ， 也 


正 因 如 此 ， 这 部 分 内 容 安排 在 了 最 前 面 。 


























对 于 Hadoop 在 存储 数据 上 的 应 用 ， 还 有 一 个 重要 的 考虑 因素 超出 了 本 书 的 范围 ， 这 就 是 数据 
安全 及 相关 问题 。 这 主要 包括 用 户 认 证 、 细 粒度 的 访问 控制 以 及 数据 (传输 中 的 数据 和 落地 
后 的 数据 ) 加 密 。 更 多 关于 Hadoop 安全 性 方面 的 讨论 ， 请 参阅 Ben Spivey 与 Joey Echeverria 
合 著 的 Hadoop Security (http://shop.oreilly.com/product/0636920033332.do，O’Reilly)。 


1.1 数据 存储 选 型 


基于 Hadoop 构建 解决 方案 时 ， 最 基本 的 决策 之 一 是 确定 如 何在 Hadoop 中 存储 数据 。 
Hadoop 没有 所 谓 的 标准 数据 存储 格式 。 但 是 跟 标 准 文件 系统 相同 ，Hadoop 能 够 以 任意 一 
种 格式 存储 数据 ， 存 储 为 文本 、 二 进 制 、 图 像 或 者 其 他 格式 都 可 以 。 为 了 在 存储 和 处 理 上 
更 加 优化 ，Hadoop 为 很 多 格式 内 置 了 支持 选项 。 这 意味 着 Hadoop 用 户 对 数据 拥有 全 部 


的 控制 权 ， 有 大 量 的 选项 可 以 选择 。 这 不 仅 适 用 于 采集 到 的 原始 数据 ， 也 适用 于 数据 处 理 

















过 程 中 产生 的 中 间 数 据 ， 以 及 数据 处 理 后 的 导出 数据 。 这 也 就 是 说 ， 要 以 最 佳 方式 存储 数 
据 ， 你 需要 做 出 很 多 决定 。 关 于 Hadoop 数据 存储 ， 需 要 考虑 的 主要 因素 有 几 下 几 点 。 














文件 格式 

Hadoop 支持 多 种 面向 数据 存储 的 文件 格式 ， 包 括 纯 文 本 和 Hadoop 特有 的 格式 ， 如 
SequenceFile。 还 有 一 些 更 加 复杂 但 功能 更 丰富 的 格式 可 供 选 择 ， 如 Avro 与 Parquet。 
不 同 的 格式 具有 不 同 的 优势 。 任 何 一 种 格式 都 有 适合 的 应 用 或 者 数据 源 类 型 。 另 外 ， 你 
也 可 以 在 Hadoop 中 创建 自己 的 定制 化 文件 格式 。 

压缩 格式 

通常 来 说 ， 与 文件 类 型 的 选择 相 比 ， 压 缩 格式 的 选择 比较 简单 ， 但 这 仍然 是 一 个 需要 考 
虑 的 重要 问题 。Hadoop 上 常用 的 压缩 编 解 码 格式 具有 不 同 的 特点 ， 比 如 ， 一 些 编 解码 
格式 压缩 和 解压 的 速度 较 快 ， 但 是 压缩 效果 不 好 ， 而 有 些 编 解 码 格式 能 将 文件 压缩 得 更 
小 ,但 是 压缩 和 解压 的 时 间 都 很 长 ， 这 种 情况 下 ，CPU 的 负担 无 颖 更 重 。 在 Hadoop 上 
存储 数据 时 ， 要 考虑 的 另 一 个 重要 因素 是 压缩 后 的 数据 是 否 支 持 分 片 。 这 个 问题 我 们 将 
在 后 面 详细 探讨 。 
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。 数据 存储 系统 
尽管 Hadoop 中 的 所 有 数据 最 终 存 储 在 HDFS 上 ， 但 是 仍然 需要 选择 实际 的 存储 管理 
器 (storage manager) ， 比 如 你 可 以 选择 HBase， 也 可 以 直接 用 HDFS 存储 数据 。 另 外 ， 
Hive 和 Impala 这 样 的 工具 能 够 为 Hadoop 中 的 数据 定义 额外 的 结构 信息 。 


在 讨论 Hadoop 数据 存储 选项 之 前 ， 需 要 注意 以 下 两 点 。 


。 本 章 将 讨论 不 同 的 存储 选项 ， 但 是 数据 存储 的 最 佳 实践 将 在 后 续 章 节 深 入 讨论 。 比 如 ， 
讨论 采集 数据 到 Hadoop 时 ， 我 们 再 深入 探讨 存储 这 类 数据 时 需要 考虑 的 问题 。 

。 尽管 本 书 重点 关注 Hadoop 的 HDFS 文件 系统 ， 但 是 我 们 也 不 会 忽略 Hadoop 的 其 他 文 
件 系 统 。 其 中 包括 开源 文件 系统 ， 比 如 GlusterFS 和 Quantcast， 以 及 商用 Isilon OneFS 
和 NetApp。 亚 马 进 S3 (Simple Storage System， 简 单 存 储 系 统 ) 这 样 的 云 存储 系统 也 开 
始 广泛 应 用 了 。 文 件 系统 也 可 能 成 为 Hadoop 部 署 方案 中 另 一 个 需要 考虑 的 架构 因素 。 
不 过 ， 这 应 该 与 我 们 在 这 里 讨论 的 问题 不 相 冲 突 。 


1.1.1 标准 文件 格式 

我 们 首先 探讨 Hadoop 中 标准 文件 格式 的 存储 。 这 里 ， 标 准 文件 格式 可 以 指 文本 格式 ， 也 
可 以 指 二 进 制 文件 类 型 。 前 者 包括 逗号 分 隔 值 (Comma-Separated Value，CSV) 和 可 扩展 
标记 语言 文本 ( Extensible Markup Language，XML) 格式 ， 后 者 包括 图 像 。 一 般 来 说 ， 在 
Hadoop 中 最 好 使 用 特定 的 文件 格式 来 存储 数据 ， 这 一 点 随后 再 进行 讨论 。 但 是 在 某 些 应 
用 场景 下 ， 你 可 能 想 要 按照 原始 格式 存储 源 数据 。 如 前 所 述 ，Hadoop 最 强大 的 一 个 功能 
就 是 可 以 存储 任何 一 种 格式 的 数据 。 原 始 数据 格式 能 够 在 线 访 问 ， 数 据 完 全 保 真 ， 这 意味 
着 即使 需求 变更 ， 你 也 可 以 对 数据 执行 新 的 处 理 和 分 析 操作 。 随 后 我 们 将 讨论 在 Hadoop 
中 存储 标准 文件 格式 时 ， 需 要 注意 的 问题 。 


1. 文本 数据 

Hadoop 非常 常见 的 一 个 应 用 是 日 志 (如 网 络 日 志和 服务 器 日 志 ) 存储 与 分 析 。 文 本 数据 
当然 也 可 以 是 其 他 很 多 格式 ， 包 括 CSV 文件 和 邮件 之 类 的 非 结 构 化 数据 。 在 Hadoop 中 存 
储 文本 数据 时 ， 主 要 是 要 考虑 文件 在 系统 中 的 组 织 形式 ，1.2 市 将 详细 讨论 这 一 点 。 男 外 ， 
因为 文本 文件 会 非常 快速 地 消耗 Hadoop 集群 的 存储 空间 ， 所 以 最 好 对 其 压缩 。 还 有 一 点 
需要 谨 记 : 使 用 文本 格式 存储 数据 会 因 类 型 转换 带 来 额外 开销 。 比 如 ， 一 个 文本 文件 中 存 
储 了 1234， 如 果 将 其 作为 一 个 整数 使 用 ， 那 么 读 取 时 就 要 进行 字符 串 到 整数 的 转换 ， 写 人 
时 也 要 做 相反 的 转换 。1234 存储 为 文本 会 比 存储 为 一 个 整数 占用 更 多 的 空间 。 如 有 果 进 行 很 
多 类 似 的 转换 ， 并 存储 大 量 这 样 的 数据 ， 那 么 这 种 开销 加 起 来 就 很 大 了 。 


数据 的 使 用 方式 会 影响 压缩 格式 的 选择 。 如 有 果 是 为 了 存档 ， 你 可 能 会 选择 压缩 率 最 高 的 压 
缩 格式 ， 如 果 数 据 需要 使 用 MapReduce 进行 处 理 ， 那 么 你 可 能 想 选 择 一 种 支持 分 片 的 压 
缩 格式 。 可 分 片 格式 允许 Hadoop 将 文件 分 成 不 同 分 片 进 行 处 理 ， 这 对 数据 的 高 效 并 行 处 
理 至 关 重 要 。 本 章 后 面 的 内 容 将 讨论 压缩 类 型 及 压缩 格式 ， 也 会 讲解 可 分 片 (splittability) 


还 有 一 点 需要 注意 ， 在 许多 (其 至 是 大 多 数 ) 场景 中 ， 运 用 SequenceFile、Avro 等 容器 格 
式 都 能 带 来 益处 ， 因 此 容器 格式 是 文本 等 大 部 分 文件 类 型 的 优选 格式 。 此 外 ， 容 器 格式 还 
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能 够 支持 可 分 片 的 压缩 。 本 章 后 面 将 介绍 这 些 容器 格式 。 


2. 结构 化 文本 数据 

XML 和 JSON (JavaScript Object Notation， 基 于 JavaScript 语言 的 轻 量 级 的 数据 交换 格 

式 ) 这 样 的 结构 化 格式 是 文本 文件 格式 中 比较 特殊 的 一 种 。XML 和 JSON 文件 很 难 分 片 ， 

Hadoop 也 没有 为 这 类 格式 提供 内 置 的 InputFormat。 在 Hadoop 中 ，JSON 格式 比 XML 更 

难处 理 ， 因 为 这 里 没有 标记 可 以 标识 记录 的 开始 与 结束 。 处 理 这 类 格式 时 ， 你 有 以 下 两 个 

选择 。 

。 使 用 类 似 于 Avro 的 容器 格式 。 将 数据 转化 为 Avro 的 内 容 ， 从 而 为 数据 存储 与 数据 处 
理 提供 更 加 紧密 、 有 效 的 方法 。 

。 使 用 处 理 XML 或 JSON 文件 的 专用 库 。 比 如 , 说 到 XML, Pig 的 PiggyBank 库 (https:// 
cwiki.apache.org/confluence/display/PIG/PiggyBank) 中 就 有 XMLLoader 可 供 使 用 。 而 
JSON 则 可 以 利用 Elephant Bird 项 目 (https://github.com/twitter/elephant-bird) 提供 的 
LzoJsonInputFormat。 想 要 详细 了 解 这 些 格式 的 处 理 , 请 参阅 Alex Holmes 所 著 的 《Hadoop 
硬 实战 》， 该 书 提供 了 一 些 使 用 MapReduce 处 理 XML 与 JSON 文件 的 例子 。 

3. 二 进 制 数据 

Hadoop 存储 中 最 常见 的 产 数据 格式 是 文本 ， 但 Hadoop 也 可 以 处 理 二 进 制 文件 《比如 

图 像 )。 对 于 Hadoop 上 的 大 多 数 应 用 场景 来 说 ， 二 进 制 文件 的 存储 和 处 理 最 好 使 用 

SequenceFile 之 类 的 容器 格式 。 如 果 二 进 制 数据 的 每 个 分 片 大 于 64 MB ， 则 可 以 考虑 直接 

使 用 该 二 进 制 数据 自己 的 格式 ， 无 需 使 用 容器 格式 。 


1.1.2 ”Hadoop 文 件 类 型 


为 了 配合 MapReduce 的 应 用 ，Hadoop 也 开发 了 一 些 专用 文件 格式 ， 包 括 基于 文件 的 数据 

结构 (如 SequenceFile)， 也 包括 序列 化 格式 (如 Avro) 和 列 式 存储 格式 (如 RCFile 和 

Parquet) 。 以 上 文件 格式 各 自 具 有 不 同 的 优点 与 缺点 ， 但 是 所 有 的 文件 都 具有 以 下 特点 ， 

对 于 基于 Hadoop 的 应 用 来 说 ， 这 些 特 点 都 很 重要 。 

。 可 分 片 压缩 
这 些 文件 格式 都 支持 通用 压缩 算法 ， 并 且 都 支持 数据 的 分 片 。1.1.5 市 将 继续 讨论 这 一 
话题 。 请 注意 ， 在 Hadoop 上 存储 数据 时 ， 很 重要 的 一 个 考虑 因素 就 是 存储 的 文件 是 否 
支持 分 片 。 如 果 支 持 ， 那 么 大 文件 就 可 以 分 片 ， 并 作为 MapReduce 和 其 他 类 型 任务 的 
输入 。 文 件 分 片 以 实现 多 任务 处 理 ， 这 是 并 行 化 处 理 的 基础 一 环 ， 也 是 应 用 Hadoop 数 
据 本 地 性 特征 的 关键 所 在 。 

。 与 压缩 编 解码 无 关 
所 有 编 解码 器 都 支持 文件 压缩 ， 读 数据 时 并 不 需要 关心 使 用 了 哪 种 编 解 码 器 。 这 是 因为 
这 些 文件 格式 的 头 部 元 数据 信息 中 能 够 存储 编 解 码 器 。 

下 面 将 讨论 基于 文件 的 数据 结构 化 格式 ， 随 后 再 讨论 序列 化 格式 与 列 式 存储 格式 。 

基于 文件 的 数据 结构 化 格式 

Hadoop 最 常用 的 基于 文件 的 格式 是 SequenceFile 格式 ， 也 有 其 他 基于 文件 的 格式 可 以 使 
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用 ， 如 MapFile、SetFile、ArrayFile 和 BloomMapFile。 这 些 格式 都 是 专门 为 MapReduce 设 
计 的 ， 能 够 高 效 集成 各 种 形式 的 MapReduce 任务 ， 包 括 通过 Pig 和 Hive 运行 的 任务 。 这 
里 要 介绍 的 SequenceFile 是 执行 Hadoop 任务 最 常用 的 格式 。 对 于 其 他 格式 更 完整 的 讨论 ， 
请 参阅 《Hadoop 权威 指南 》。 


SequenceFile 以 二 进 制 键 值 对 的 方式 存储 数据 ， 支 持 三 种 记录 存储 方式 。 


。 无 压缩 
无 压缩 SequenceFile 的 IO (Input/Output， 输 入 /输出 ) 效率 较 差 ， 而 且 会 比 压缩 格式 
占用 更 多 的 磁盘 空间 。 所 以 在 大 多 数 情况 下 ， 相 比 于 有 压缩 的 记录 存储 方式 ， 无 压缩 的 
SequenceFile 没有 任何 优势 。 

。 记录 级 压缩 
该 格式 对 加 入 到 SequenceFile 中 的 每 一 条 记录 进行 压缩 。 


。 块 级 压缩 

这 种 压缩 方式 会 等 待 数据 达到 指定 数据 块 大 小 ， 而 不 是 在 添加 每 条 记录 的 时 候 都 进行 
压缩 。 与 记录 级 压缩 相 比 ， 块 级 压缩 的 SequenceFile 拥有 更 高 的 压缩 率 。 通 常 来 说 ， 
SequenceFile 都 要 选择 块 级 压缩 。 另 外 ， 这 里 所 说 的 块 与 HDFS 或 文件 系统 数据 块 无 
关 。 块 级 压缩 中 的 块 指 的 是 压缩 在 一 个 HDFS 数据 块 内 的 一 组 (多 条 ) 数据 记录 。 


不 管 是 哪 一 种 存储 方式 ， 每 个 SequenceFile 均 包含 一 个 通用 的 头 部 格式 ， 头 部 包含 与 文件 
有 关 的 基本 元 数据 信息 ， 比 如 所 用 的 压缩 编 解码 器 、 键 和 值 的 类 名 信息 、 用 户 定义 的 元 数 
据 以 及 随机 产生 的 同步 标志 (sync marker)。 这 个 同步 标志 也 写 入 了 文件 内 容 ， 以 便 在 文 
件 中 进行 随机 定位 ， 这 也 是 支持 可 分 片 的 关键 。 举 例 来 说 ， 对 于 块 级 压缩 的 SequenceFile， 
每 个 数据 块 的 前 面 会 有 一 个 同步 标志 。 

Hadoop 生态 系统 向 SequenceFile 提供 了 良好 的 支持 ， 但 是 Hadoop 之 外 的 支持 极为 有 限 。 
SequenceFile 的 支持 语言 只 有 Java 这 一 种 。 通 常 ，SequenceFile 会 作为 小 文件 的 容器 使 用 。 
在 Hadoop 中 存储 大 量 的 小 文件 会 引发 一 些 问题 。 第 一 ， 这 会 导致 NameNode 过 度 使 用 内 
存 ， 因 为 HDFS 中 每 个 文件 的 元 数据 都 会 存在 内 存 里 。 第 二 ， 来 自 小 文件 的 大 量 数据 处 
理 起 来 需要 很 多 数据 处 理子 任务 ， 这 会 导致 处 理 资 源 过 度 消耗 。Hadoop 针对 大 文件 进行 
过 优化 ， 因 此 ， 将 小 文件 打包 到 SequenceFile 中 ， 能 够 实现 更 加 有 效 的 存储 和 处 理 。 关 于 
Hadoop 小 文件 的 相关 问题 以 及 SequenceFile 的 解决 方案 ， 更 完整 的 讨论 请 参阅 《Hadoop 
权威 指南 》。 


图 1-1 展示 了 使 用 块 级 压缩 的 SequenceFile 的 文件 分 布 。 需 要 注意 的 是 ， 每 个 数据 模块 前 
都 包含 了 同步 标志 ， 这 样 一 来 ,文件 在 读 取 时 就 能 够 找到 数据 块 的 边界 了 。 
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1-1: 使 用 块 级 压缩 的 SequenceFile 示例 


1.1.3 序列 化 存储 格式 


序列 化 指 的 是 将 数据 结构 转化 为 字 节 流 的 过 程 ， 一 般 用 于 数据 存储 或 网 络 传输 。 与 之 
相反 ， 反 序列 化 是 将 字 节 流转 化 为 数据 结构 的 过 程 。 序 列 化 是 分 布 式 处 理 系统 (比如 
Hadoop) 的 核心 ， 原 因 在 于 它 能 对 数据 进行 转化 ， 形 成 一 种 格式 。 使 用 了 这 样 的 格式 之 
后 ， 数 据 可 以 有 效 存储 ， 也 能 通过 网 络 连 接 进 行 传输 。 序 列 化 通常 与 分 布 式 系统 中 数据 处 
理 过 程 的 两 个 方面 紧密 相连 : 进程 间 通 信 (比如 远程 过 程 调 用 ， 即 Remote Procedure Call， 
RPC) ， 以 及 数据 存储 。 考 虑 到 本 章 的 主题 ， 我 们 将 忽略 RPC， 将 本 节 的 重点 放 在 数据 存 
储 上 。 


Hadoop 主要 采用 的 序列 化 格式 为 Writables。Writables 的 特点 是 紧密 、 快 速 ， 但 是 脱离 
Java 语言 便 不 易 扩 展 和 使 用 。 不 过 ，Hadoop 生态 系统 中 也 有 越发 普及 的 其 他 序列 化 框架 ， 
包括 Thrift、Protocol Buffers 与 Avro。 其 中 ，Avro 的 适用 性 最 好 ， 因 为 它 创 建 的 初衷 就 是 
解除 Hadoop Writables 的 限制 。 我 们 会 详细 介绍 Avro， 但 是 在 此 之 前 ， 需 要 先 认 识 一 下 
Thrift 和 Protocol Buffers。 


1. Thrift 

Thrift 是 Facebook 公司 开发 的 框架 ， 用 于 实现 跨 语言 提供 服务 接口 。Thrift 使 用 接口 定义 
语言 (Interface Definition Language，IDL) 定义 服务 接口 ， 而 且 依 据 IDL 文件 自动 生成 
桩 代码 (stub code)。 使 用 这 些 代码 实现 的 RPC 客户 端 与 服务 器 ， 能 够 进行 跨 平台 通信 。 
Thrift 可 以 实现 在 多 种 语言 中 都 能 使 用 的 接口 ， 由 此 访问 不 同 的 后 端 系统 。Thrift 的 RPC 
层 非常 健壮 ， 但 是 本 章 只 关注 作为 序列 化 框架 的 Thrift。 尽 管 有 时 会 用 于 Hadoop 的 数据 
序列 化 ， 但 是 Thrift 仍然 存在 一 些 缺 陷 : 不 支持 记录 的 内 部 压缩 ， 不 可 分 片 ， 而 且 缺 少 
MapReduce 的 原生 支持 。 请 注意 ， 一些 外 部 库 (如 Elephant Bird 项 目 ) 能 够 消除 这 些 缺 
陷 ， 但 是 Hadoop 没有 为 作为 数据 存储 格式 的 Thrift 提供 原生 支持 。 
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2. Protocol Buffers 

Protocol Buffers (protobuf) 格式 由 Google 公司 开发 ， 用 于 在 不 同 语言 编写 的 服务 之 间 完 
成 数据 交换 。 与 Thrift 类 似 ，Protobuf 的 结构 由 一 个 IDL 文件 定义 ，IDL 用 于 为 不 同 的 语 
言 创 建 桩 代码 。 与 Thrift 类 似 的 是 ，Protocol Buffers 不 支持 记录 的 内 部 压缩 ， 不 可 分 片 ， 
而 且 缺 少 MapReduce 的 原生 支持 。 但 是 ， 同 样 与 Thrift 类 似 ，Elephant Bird 项 目 可 以 用 于 
编码 protobuf 记录 ， 支 持 MapReduce、 压 缩 ， 以 及 分 片 。 


3. Avro 

Avro 是 一 种 和 语言 无 关 的 数据 序列 化 系统 ， 其 设计 初衷 是 解决 Hadoop Writables 的 主要 缺 
点 ， 即 缺少 跨 语 言 的 可 移植 性 支持 。 与 Thrift 和 Protocol Buffers 相同 的 是 ，Avro 的 数据 描 
述 也 无 关 语 言 。 与 Thrift 和 Protocol Buffers 不 同 的 是 ，Avro 可 以 选择 生成 代码 ， 也 可 以 
选择 不 生成 代码 。 因 为 Avro 将 模式 存储 于 每 个 文件 的 头 部 ， 所 以 每 个 文件 都 是 自 描述 的 
(self-documenting)。Avro 文件 都 很 容易 读 取 ， 即 使 是 用 一 种 语言 写 入 数据 ， 用 另外 一 种 语 
言 来 读 取 ， 也 没有 影响 。Avro 为 MapReduce 提供 了 更 好 的 原生 支持 ， 因 为 Avro 的 数据 可 
压缩 且 可 分 片 。Avro 的 另 一 个 重要 特点 是 支持 模式 演进 (schema evolution)， 这 一 特点 使 
得 Avro 比 SequenceFile 更 适合 Hadoop 应 用 。 也 就 是 说 ， 读 取 文 件 的 模式 不 需要 与 写 人 文 
件 的 模式 严格 匹配 。 于 是 ， 当 需求 发 生变 更 时 ， 模 式 中 可 以 添加 新 的 字段 。 


Avro 模式 通常 以 JSON 格式 定义 ， 但 是 也 可 以 用 Avro IDL (一 种 类 似 于 C 的 语言 ) 定义 。 
如 前 所 述 ， 模 式 存储 于 文件 的 头 部 ， 是 文件 元 数据 的 一 部 分 。 除 了 元 数据 ， 文 件 头 部 还 包 
括 一 个 唯一 的 同步 标志 。 与 SequenceFile 类 似 ， 这 个 同步 标志 用 于 隔 开 文件 中 的 数据 块 ， 
从 而 使 Avro 文件 支持 分 片 。 每 个 Avro 文件 的 头 部 后 面 都 有 一 系列 数据 块 ， 包 含 序列 化 后 
的 Avro 对 象 。 这 些 数据 块 可 以 压缩 。 而 且 ， 各 种 数据 以 原 格 式 存储 在 这 些 数据 块 中 ， 这 
也 为 压缩 提供 了 额外 的 帮助 。 本 书 撰写 的 时 候 ，Avro 已 向 Snappy 和 Deflate 格式 的 压缩 提 
供 了 支持 。 


Avro 定义 了 少量 的 基本 类 型 ， 包 括 Boolean、int、float 和 string， 它 也 支持 array、map 
和 enun 等 复杂 类 型 。 


1.1.4 ， 列 式 存储 格式 


直到 近 几 年 ， 大 多 数 数据 库 系统 一 直 都 以 行 存 (row-oriented) 的 方式 存储 记录 。 需 要 获取 

记录 中 大 多 数列 的 时 候 , 行 存 格式 是 较为 高 效 的 。 举 例 来 讲 ， 如 果 进 行 分 析 的 时 候 一 定 要 

获取 某 个 时 间 段 的 全 部 字段 记录 ， 那 么 行 存 格式 的 存储 就 很 实用 。 另 外 ， 行 存 格式 会 让 数 

据 写 入 更 为 高 效 ， 尤 其 是 ， 写 入 时 所 有 的 记录 行 都 已 确定 ， 在 磁盘 上 定位 一 下 即 可 。 近 几 

年 ， 很 多 数据 库 引 入 了 列 式 存 储 格式 。 与 先前 的 行 存 系 统 相 比 ， 列 式 存储 的 系统 能 够 提供 

以 下 优势 。 

。 对 于 查询 内 容 之 外 的 列 ， 不 必 执 行 WO 和 解压 ( 若 适 用 ) 操作 。 

。 非常 适合 仅 访问 小 部 分 列 的 查询 。 如 有 果 访 问 的 列 很 多 ， 则 行 存 格式 更 为 适合 。 

。 相 比 由 多 行 构成 的 数据 块 ， 列 内 的 信息 灶 更 低 ， 所 以 从 压缩 角度 来 看 ， 列 式 存储 通 常会 
非常 高 效 。 换 句 话 说 ， 同 一 列 中 的 数据 比 行 存 数据 块 中 的 数据 更 为 相似 。 当 某 一 列 的 取 
值 不 多 时 ， 行 存 与 列 存 格 式 在 压缩 效果 上 的 差异 尤为 显 车。 
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。 数据 仓库 类 型 的 应 用 需要 在 极 大 的 数据 集 上 对 某 些 特定 的 列 进行 聚合 操作 ， 而 列 式 存储 
格式 通常 很 适合 此 类 应 用 场景 。 

显然 ， 列 式 文件 格式 也 常常 出 现在 Hadoop 应 用 中 。Hadoop 支持 的 列 式 格式 包括 一 度 

广泛 应 用 为 Hive 格式 的 RCFile， 以 及 最 近 推 出 的 其 他 格式 ， 如 ORC (Optimized Row 

Columnar)， 以 及 Parquet， 后 文中 将 详细 介绍 。 


1. RCFile 

RCFile 专 为 高 效 处 理 MapReduce 应 用 程序 而 开发 ， 尽 管 在 实践 过 程 中 ， 它 一 般 只 作为 
Hive 存储 格式 使 用 。RCFile 的 开发 虽 在 快速 加 载 和 查询 数据 ， 以 及 更 加 高 效 地 利用 存储 空 
间 。RCFile 格式 将 文件 按 行进 行 分 片 ， 每 个 分 片 按 列 存储 。 

与 SequenceFile 相 比 ，RCFile 格式 在 查询 与 压缩 性 能 方面 有 很 多 优势 。 但 这 种 格式 也 存 
在 一 些 缺 陷 ， 会 阻碍 查询 时 间 和 压缩 空间 的 进一步 优化 。 这 些 问 题 很 多 都 可 以 由 更 为 新 型 
的 列 式 存储 格式 (比如 ORC 与 Parquet) 化 解 。 大 部 分 不 断 涌现 的 应 用 很 有 可 能 放弃 使 用 
RCFile， 改 用 新 型 的 列 存 格式 。 不 过 ，RCFile 目前 仍然 是 Hive 中 的 常用 存储 格式 。 

2. ORC 

ORC 格式 的 开发 初 囊 是 为 了 弥补 RCFile 格式 的 一 些 不 足 ， 尤 其 是 查询 性 能 和 存储 效率 方 
面 的 缺陷 。 相 比 RCFile，ORC 格式 在 很 多 方面 有 显著 进步 ， 其 特点 和 优势 如 下 。 


。 通过 特定 类 型 (type-specific) 的 reader 与 writer 提供 轻 量 级 的 、 在 线 的 (always-on) 压缩 。 
ORC 还 支持 使 用 zlib、LZO 和 Snappy 压缩 算法 提供 进一步 的 压缩 。 

。 能 够 将 谓词 下 推 至 存储 层 ， 仅 返回 查询 所 需要 的 数据 。 

。 支持 Hive 类 型 的 模型 ， 包 括 新 增 的 decimal 类 型 与 复杂 类 型 。 

。 支持 分 片 。 

撰写 本 书 时 ，ORC 的 劣势 在 于 它 是 专门 为 Hive 设计 的 ， 而 不 是 通用 的 存储 格式 ， 无 法 用 

于 非 Hive 的 MapReduce 接口 (如 Pig 或 Java)， 也 无 法 用 于 Impala 这 样 的 查询 引擎 。 不 

过 ， 有 人 正在 研究 如 何 弥补 这 个 缺陷 。 

3. Parquet 

Parquet 和 ORC 拥有 很 多 相同 的 设计 目标 ， 但 是 Parquet 有 意 成 为 Hadoop 上 的 通用 存储 格 

式 。 实 际 上 ，ORC 出 现 的 时 间 晚 于 Parquet， 所 以 有 人 会 说 ORC 是 Parquet 的 改进 版 。 正 

因为 如 此 ，Parquet 的 目标 是 成 为 能 够 普遍 应 用 于 不 同 MapReduce 接口 (如 Java、Hive 与 

Pig) 的 格式 ， 同 时 也 要 适应 其 他 处 理 引 擎 (如 Impala 与 Spark) 。Parquet 的 优势 如 下 ， 甚 

中 很 多 优势 与 ORC 相同 。 


。 与 ORC 文件 类 似 ，Parquet 允许 仅 返 回 需 要 的 数据 字段 ， 因此 减少 了 1O, 提升 了 性 能 。 

。 提供 高 效 的 压缩 ， 可 以 在 每 一 列 上 指定 压缩 算法 。 

。 设计 的 初 训 便 是 支持 复杂 的 山 套 数据 结构 。 

。 在 文件 尾部 有 完整 的 元 数据 信息 存储 ， 所 以 Parquet 文件 是 自 描述 的 。 

。 完全 支持 通过 Avro 和 Thrift API 写 和 信和 读 取 。 

。 使 用 可 扩展 的 高 效 编码 模式 ， 比 如 ， 按 位 封装 (bitpackaging) 和 游程 编码 (Run 
Length Encoding, RLE), 
























































































































































Hadoop 数 据 建 模 | 9 
图 灵 社 区 会 员 largelove(largelove@163.com) 专 享 尊重 版 权 








Avro 与 Parquet 随 着 时 间 的 推移 ， 我 们 认识 到 ， 使 用 同一 个 接口 读 写 Hadoop 集群 中 的 所 
有 文件 会 带 来 很 多 益处 。 而 且 ， 如 果 要 选择 一 种 文件 格式 ， 那 么 最 好 选择 支持 模式 描述 的 
格式 ， 因 为 Hadoop 上 的 大 部 分 数据 最 终 都 将 成 为 结构 化 或 者 半 结 构 化 的 数据 。 
既然 需要 模式 的 支持 ， 那 么 Avro 与 Parquet 就 是 很 好 的 选择 。 不 过 ， 我 们 不 想 考 虑 是 否 需 
要 创建 一 个 模式 的 Avro 版 本 与 Parquet 版 本 。 好 在 这 已 经 不 是 什么 问题 了 ， 因 为 Parquet 
支持 基于 Avro API 与 Avro 模式 的 读 取 和 写 入 。 

这 样 看 来 ， 万 事 俱 备 ， 我 们 可 以 使 用 同一 个 接口 与 Avro 和 Parquet 文件 交互 ， 而 且 可 以 选 
择 数 据 块 存储 和 列 式 存储 。 












































不 同文 件 格式 的 失败 行为 
不 同文 件 格式 之 间 一 个 重要 的 差异 在 于 如 何 处 理 数据 错误 ， 某 些 格式 可 以 更 好 地 处 理 
文件 损坏 。 


。 列 式 格式 虽然 高 效 ， 但 是 在 错误 处 理 方面 表现 并 不 是 很 好 ， 这 是 因为 文件 损毁 可 能 
导致 行 不 完全 。 

。 序列 化 格式 在 第 一 个 出 错 的 行 之 前 能 够 正常 读 取 ， 但 是 在 随后 的 行 中 无 法 恢复 。 

。 Avro 的 错误 处 理 能 力 最 强 ， 在 出 现 错误 记录 时 ， 读 操作 将 在 下 一 个 同步 点 (Sync 
point) 继续 ， 所 以 错误 只 会 影响 文件 的 一 部 分 。 











1.1.5 “压缩 


Hadoop 存储 数据 时 需要 着 重 考虑 的 另 一 个 因素 就 是 压缩 。 这 里 不 仅 要 满足 市 省 存储 空间 
的 需求 ， 也 要 提升 数据 处 理性 能 。 在 处 理 大 量 数据 时 ， 消 耗 最 大 的 是 磁盘 和 网 络 的 IO， 
所 以 减少 需要 读 取 或 者 写 人 磁盘 的 数据 量 就 能 大 大 缩短 整体 处 理 时 间 。 这 包括 数据 源 的 压 
缩 ， 也 包括 数据 处 理 过 程 (如 MapReduce 任务 ) 中 产生 的 中 间 数 据 的 压缩 。 尽 管 压缩 会 增 
加 CPU 负载 ， 但 是 大 多 数 情况 下 ，IO 上 的 节省 仍然 大 于 增加 的 CPU 负载 。 


压缩 能 够 极 大 地 优化 处 理性 能 ， 但 是 Hadoop 支持 的 压缩 格式 并 不 都 是 可 分 片 的 。 
MapReduce 框架 先 将 数据 分 片 ， 然 后 再 输入 多 个 任务 ， 所 以 不 支持 分 片 的 压缩 格式 对 于 
数据 的 高 效 处 理 极为 不 利 。 如 果 文 件 不 可 分 片 ， 那 就 意味 着 需要 将 整个 文件 输入 到 一 个 单 
独 的 MapReduce 任务 ， 根 本 无 法 利用 Hadoop 提供 的 大 规模 并 行 以 及 数据 本 地 化 优势 。 因 
此 ， 在 选择 压缩 格式 与 文件 格式 时 ， 是 否 支持 分 片 是 一 个 重要 的 考虑 因素 。 我 们 将 讨论 可 
用 于 Hadoop 的 多 种 压缩 格式 ， 以 及 在 选择 不 同 格式 时 需要 其 酌 的 一 些 因 素 。 

1. Snappy 
Snappy 是 Google 开发 的 一 种 压缩 编 解码 器 ， 用 于 实现 高 速 压缩 ， 适 当 兼 顾 压 缩 率 。 虽 然 
压缩 率 不 算 突出 ， 但 是 Snappy 能 够 较 好 地 平衡 压缩 速度 和 大 小 。Snappy 的 处 理性 能 显著 
优 于 其 他 压缩 格式 。 值 得 注意 的 是 ， 使 用 Snappy 压缩 的 文件 不 是 可 分 片 的 ， 所 以 它 要 与 
容器 格式 (如 SequenceFile 和 Avro) 联合 使 用 。 
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2.LZO 

与 Snappy 相似 ，LZO 也 具有 较 好 的 压缩 速度 ， 但 压缩 率 略 显 平 良 。 与 Snappy 不 同 的 是 ， 
使 用 LZO 压缩 的 文件 可 分 片 ， 不 过 这 里 要 求 建立 索引 。 如 果 纯 文本 文件 不 存储 到 容器 格 
式 中 ， 那 么 使 用 LZO 是 一 个 不 错 的 选择 。 有 一 点 需要 注意 的 是 ，LZO 的 许可 协议 不 允许 
将 其 打包 到 Hadoop 中 进行 分 发 ， 因 此 需要 单独 安装 。Snappy 则 不 同 ， 它 可 以 与 Hadoop 
一 起 分 发 。 

3. Gzip 

Gzip 的 压缩 性 能 非常 好 ， 平 均 来 讲 ， 可 以 达到 Snappy 的 2.5 倍 。 但 是 它 的 写 入 速度 不 如 
Snappy， 平 均 为 Snappy 的 一 半 。 在 读 取 性 能 上 ，Gzip 通常 与 Snappy 相差 不 多 。Gzip 同样 
是 不 可 分 片 的 ， 所 以 应 该 与 容器 格式 联合 使 用 。 请 注意 ，Gzip 处 理 数据 有 时 会 比 Snappy 
慢 ， 原因 在 于 Gzip 压缩 文件 需要 的 数据 块 较 少 ， 所 以 处 理 相同 数据 所 需 的 任务 就 更 少 。 
因此 ， 使 用 Gzip 时 选择 较 小 的 数据 块 ， 可 以 达到 更 好 的 性 能 。 

4. bzip2 

bzip2 的 压缩 性 能 很 优越 ， 但 是 处 理性 能 明显 比 其 他 压缩 编 解 码 格 式 (如 Snappy) 要 
差 。 与 Snappy 和 Gzip 不 同 ，bzip2 本 身 为 可 分 片 式 。 在 先前 的 例子 中 ， 从 存储 空间 上 看 ， 
bzip2 的 压缩 率 比 Gzip 高 约 9%。 但 是 ， 额 外 的 压缩 要 在 读 取 、 写 入 性 能 上 付出 很 大 的 代 
价 。 在 这 个 方面 ， 不 同 的 机 器 会 有 不 同 的 性 能 差异 ， 但 是 通常 来 说 bzip2 会 比 Gzip 慢 10 
倍 。 因 此 ，bzip2 在 Hadoop 存储 中 并 不 是 理想 编 解 码 格式 ， 除 非 主要 的 需求 就 是 减少 存储 
空间 占用 量 ， 例 如 在 线 归档 时 使 用 Hadoop 的 场景 。 


5. 压缩 算法 推荐 
一 般 来 说 ， 在 与 容器 文件 格式 (Avro、SequenceFile 等 ) 一 起 使 用 时 ， 任 何 压缩 格式 都 可 
以 是 分 片 式 的 ， 因 为 容器 文件 格式 能 够 单独 压缩 记录 构成 的 数据 块 ， 也 可 以 进行 记录 级 的 
压缩 。 如 果 在 压缩 整个 文件 时 没有 使 用 容器 文件 格式 ， 那 么 就 需要 使 用 本 身 支 持 可 分 片 的 
压缩 格式 ， 比 如 在 数据 块 之 间 插 入 同步 标记 的 bzip2。 


以 下 是 在 Hadoop 中 进行 压缩 的 一 些 建议 。 


。 开启 MapReduce 中 间 数 据 的 输出 压缩 。 这 样 可 以 减少 需要 读 取 和 写 入 磁盘 的 中 间 数 据 ， 
进而 提高 了 性 能 。 

。 注意 数据 是 如 何 排序 的 。 通 常 来 讲 ， 数 据 应 当 排 序 ， 相 似 的 数据 要 放 在 一 起 ， 这 样 压缩 
率 更 高 。 需 要 记 住 的 是 ，Hadoop 文件 格式 中 的 数据 是 以 块 为 单位 压缩 的 ， 而 且 那 些 块 
的 炉 将 决定 最 终 的 压 织 。 比 如 ， 如 果 数 据 包 括 带 有 时 间 玲 的 股票 基点 、 股 票 报 价 以 及 股 
标价 格 ， 那 么 相 比 按照 含 唯 一 值 的 列 (如 时 间或 股票 价格 ) 排序 ， 按 照 重 复 的 字段 (如 
股票 报价 ) 排序 压缩 效果 更 好 。 

。 考虑 使 用 支持 可 分 片 压 缩 算法 的 紧凑 文件 格式 ， 如 Avro。 图 1-2 展示 了 使 用 不 可 分 片 
压缩 算法 的 Avro 或 SequenceFile 支持 文件 分 片 的 方法 。 一 个 HDFS 数据 块 能 够 包含 多 
个 Avro 或 SequenceFile 数据 块 。 每 一 个 Avro 或 SequenceFile 数据 块 能 够 独立 于 其 他 的 
Avro 或 SequenceFiles 数据 块 ， 单 独 进 行 压缩 和 解压 操作 。 这 也 保证 了 每 一 个 HDFS 数 
据 块 都 能 被 单独 压缩 与 解压 ， 由 此 实现 了 数据 可 分 片 。 
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HDFS 数 据 块 
同步 标记 
压缩 后 的 数据 块 


同步 标记 
压缩 后 的 数据 块 





HDFS 数 据 块 


压缩 后 的 数据 块 














1-2: Avro 压缩 示例 


1.2 HDFS 模 式 设计 


如 1.1 节 所 述 ，HDFS 和 HBase 是 两 种 很 常用 的 存储 管理 
HDFS 或 HBase (内 部 数据 存储 于 HDFS) 存储 数据 。 


本 市 将 探讨 哪 一 种 模式 更 有 利于 将 数据 直接 存储 于 HDFS。 如 前 画 

















器 。 你 可 根据 实际 情况 选择 用 


i 提 到 的 ， 数 据 加 载 到 


Hadoop 中 时 ，Hadoop 的 Schema-On-Read 模型 对 数据 没有 任何 要 求 。 数 据 可 以 通过 众多 
方法 (将 在 第 2 章 深 入 讨论 ) 便捷 地 输入 HDFS 中 ， 而 不 需要 参考 模式 信息 ， 也 不 必 预 处 














YH 


时 数据 。 











尽管 有 很 多 人 用 Hadoop 存储 和 处 理 非 结构 化 数据 (如 
结构 化 数据 (如 XML 文档 和 日 志文 但 











组 织 的 数据 中 心 ，HDFS 中 存储 的 数据 要 在 许多 部 门 和 团队 之 间 共 享 。 在 色 
候 仔细 进行 构建 和 组 织 能 够 带 来 很 多 益处 ， 包 括 以 下 几 条 。 








图 像 、 视 频 、 邮 件 或 者 博文 ) 和 半 
F) ， 做 些 约定 还 是 有 必要 的 。Hadoop 经 常 充当 整个 














| 建 数据 库 的 时 


。 标准 化 的 目录 结构 可 以 让 不 同 的 团队 更 加 轻松 地 使 用 同一 个 数据 集 共享 数据 。 
。 支持 实施 访问 控制 和 配额 控制 ， 可 以 防止 意外 删除 或 损坏 。 





。 在 所 有 数据 都 准备 好 进行 处 











。 对 数据 进行 标准 化 的 组 织 ， 使 得 某 些 数据 处 理 代 码 可 以 复 用 。 
。 Hadoop 生态 系统 中 的 一 些 工 具有 时 会 对 数据 的 位 置 作出 假设 。 当 初次 将 数据 加 载 到 
Hadoop 中 时 ， 符 合 那些 假设 通常 会 容易 些 。 


数据 模型 的 细节 和 具体 的 月 











例 高 度 相 关 。 比 如 ， 数 据 仓库 的 实现 和 其 他 事 们 


之 前 ， 使 用 者 时 常会 将 数据 存放 在 一 个 独立 的 区 域 。 存 放 
数据 的 约定 有 助 于 确保 部 分 加 载 数据 不 会 被 当 作 加 载 完成 的 数据 ， 从 而 被 意外 处 理 。 








存储 很 可 能 采 
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用 类 似 于 传统 星 型 的 模型 ， 包 括 结构 化 的 事实 表 和 维度 表 。 另 一 方面 ， 非 结构 化 与 半 结 构 
化 数据 可 能 将 重点 更 多 地 放 在 目录 位 置 与 元 数据 管理 方面 。 


设计 模式 时 ， 无 论 项 目 需求 如 何 ， 以 下 几 点 都 要 铭记 在 心 。 




















要 创建 实践 标准 并 遵守 标准 ， 特 别 是 当 多 个 小 组 共同 使 用 数据 时 。 

确保 你 的 设计 能 与 计划 使 用 的 工具 配合 使 用 。 比 如 ， 计 划 使 用 的 Hive 版 本 可 能 只 支持 
目录 中 以 特定 方式 命名 的 表 分 区 。 这 通常 会 影响 模式 设计 ， 尤 其 会 影响 子 目 录 表 的 命名 
方式 。 

设计 模式 时 要 记 住 使 用 模式 。 不 同 的 数据 处 理 与 查询 模式 要 配合 不 同 的 模式 设计 。 敲 定 
模式 之 前 ， 你 要 理解 主要 用 例 和 数据 获取 要 求 ， 从 长 远 看 ， 这 可 以 保证 模式 更 易 维 护 和 
支持 ， 也 更 易 提 高 数据 处 理性 能 。 























1.2.1 文件 在 HDFS 中 的 位 置 

为 了 用 更 具体 的 术语 来 进行 讨论 ， 设 计 一 种 HDFS 模式 时 ， 首 先 应 该 决定 文件 的 位 置 。 标 
准 化 的 位 置 使 团队 之 间 更 容易 查找 和 共享 数据 。 下 面 是 我 们 推荐 的 HDFS 目录 结构 示例 。 
目录 结构 简化 了 不 同 组 和 用 户 的 权限 分 配 。 








/user/<username> 

只 属于 特定 用 户 的 数据 、JAR 包 和 配置 文件 。 这 通常 是 用 户 在 试验 中 使 用 的 非 正 式 数 
据 ， 不 属于 业务 流程 。/user 下 的 目录 通常 只 能 由 所 有 者 进行 读 取 和 写 入 。 

/etl 

ETL (Extract Transform and Load， 提 取 、 和 转化、 加载 ) 工作 流 正在 处 理 的 、 处 于 不 同 
阶段 的 数据 。/et 目录 由 ETL 过 程 (通常 在 各 自 的 user 目录 下 进行 ) 与 ETL 团队 的 成 
员 读 取 和 写 入 。 拥 有 ETL 过 程 的 不 同 组 别 (如 业务 分 析 、 欺 诈 识别 以 及 市 场 营销 ) 在 /ed 
目录 树 中 有 对 应 的 子 目 录 。ETL 工作 流通 常 隶 属于 大 型 应 用 ， 比 如 点 击 流 分 析 或 者 推 
荐 引擎 ， 而 且 每 一 个 应 用 在 /et 目录 下 都 要 有 对 应 的 子 目 录 。 在 每 一 个 应 用 的 目录 中 ， 
该 应 用 的 每 个 ETL 过 程 或 工作 流 都 有 一 个 目录 。 工 作 流 目 录 中 ， 每 个 数据 集 都 有 一 个 
子 目录 。 比 如 ， 如 果 商 业 智 能 (Business Intelligence，BI) 组 有 一 款 点 击 流 分 析 应 用 ， 
而 且 其 中 一 个 过 程 是 聚合 用 户 的 喜好 ， 那 么 建议 将 包含 该 数据 的 目录 命名 为 /et/BL 
clickstream/aggregate_preferences。 有 些 情况 下 ， 使 用 者 可 能 想 让 目录 树 更 深 一 层 ， 为 过 
程 的 每 个 阶段 都 建立 目录 : 数据 着 陆 的 目录 为 input， 中 间 处 理 阶 段 的 目录 为 processing 
(可 能 存在 多 个 processing 目录 )， 最 终结 果 的 目录 为 output， 而 被 ETL 过 程 拒绝 、 需 要 
进行 手动 故障 处 理 的 数据 或 者 文件 则 进入 bad 目录 。 这 种 情况 中 ， 最 终 的 结构 大 约 是 这 


样 的 : /etl/<group>/<application>/<process>/{input、processing、output、bad}。 












































/tmp 

工具 生成 或 者 用 户 共享 的 临时 数据 。 该 目录 通常 通过 程序 自动 清除 ， 不 会 存储 生命 周期 
长 的 数据 。 通 常 每 个 人 都 能 读 取 或 写 入 该 目录 。 

/data 

经 过 处 理 并 且 在 整个 组 织 内 共享 的 数据 集 。 这 些 通常 是 待 分 析 数 据 的 重要 来 源 ， 可 以 
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促成 业务 决策 ， 所 以 不 能 不 分 身份 角色 ， 任 人 读 取 和 写 入 。 通 常 ， 用 户 只 能 读 取 数 据 ， 
数据 由 自动 化 的 ETL 过 程 写 入 ， 而 且 要 受到 审计 。/data 目录 下 的 数据 通常 对 于 业务 非 
常 重要 ， 所 以 一 般 只 允许 自动 化 的 ETL 过 程 写 和 数据， 改变 都 是 要 受到 控制 和 审计 的 。 
不 同业 务 团队 对 于 /data 目录 下 的 目录 有 着 不 同 的 读 取 权限 ， 这 取决 于 他 们 的 报告 与 处 
理 需 求 。 在 /data 中 存储 的 数据 集 应 当 经 过 了 处 理 ， 用 于 共享 ， 所 以 其 中 每 一 个 数据 集 
都 有 一 个 子 目录 。 比 如 ， 如 果 将 一 种 药物 的 所 有 订单 存 为 一 个 名 为 medication_orders 的 
表格 ， 那 么 我 们 建议 将 该 数据 集 存储 于 一 个 名 为 /data/medication_orders 的 目录 中 。 


。 /app 

几乎 囊括 Hadoop 应 用 运行 所 需要 的 一 切 ， 但 不 包括 数据 。 这 里 有 JAR 文件 、Oozie 工 

作 流 定义 、Hive HQL 文件 ， 等 等 。 应 用 的 代码 目录 /app 用 于 存储 应 用 所 需 的 依赖 ， 

如 用 于 Oozie 工作 流 的 JAR 包 ， 以 及 Hive 用 户 自 定义 函数 (User-Defined Functions， 
UDF) 的 JAR 包 。 一般 来 讲 ，HDFS 中 不 是 必须 存储 应 用 程序 的 这 些 内 容 ， 但 是 一 些 
Hadoop 应 用 (比如 Oozie 与 Hive) 要 求 将 共享 编码 和 配置 存储 到 HDFS 上 。 这 样 一 来 ， 
在 集群 的 任 一 节点 执行 的 代码 都 可 以 使 用 它 。 该 目录 中 每 一 个 组 和 应 用 都 应 该 包括 一 个 
子 目 录 ， 类 似 于 /et 的 结构 。 对 于 一 个 给 定 的 应 用 (比如 Oozie) ， 如 果 使 用 者 决定 将 应 
用 程序 存储 到 HDFS 中 ， 那 么 应 用 的 每 个 版 本 都 需要 一 个 目录 。 有 可 能 通过 HDFS 的 
符号 链接 做 标记 ， 最 新 的 标 为 latest， 当 前 使 用 的 标 为 current。 目 录 包 含 的 二 进 制程 序 
能 够 呈现 在 各 个 版 本 的 目录 中 。 类 似 于 : /app/< 组 >/< 应 用 >/< 版 本 >/< 包 目录 >/< 包 >。 
继续 刚才 的 例子 ， 聚 合 处 理 喜 好 ， 这 个 应 用 最 新 创建 的 JAR 所 在 的 目录 结构 类 似 于 : 


/app/BL/clickstream/latest/aggregate_preferences/uber-aggregatepreferences.jar。 





















































。 /metadata 
存储 元 数据 。 尽 管 大 多 数 表 元 数据 都 存储 在 Hive metastore 中 (即将 在 1.4 节 介 绍 )， 但 
是 还 有 一 些 元 数据 (如 Avro 模式 文件 ) 可 能 需要 存储 在 HDFS 中 。 该 目录 是 存储 此 类 
元 数据 的 最 佳 位 置 。 该 目录 通常 对 ETL 任务 可 读 ， 而 采集 数据 到 Hadoop 中 的 用 户 (如 
Sqoop 用 户 ) 则 拥有 写 权 限 。 比 如 ， 一 个 数据 集 的 Avro 模式 文件 被 称 作 movie， 那 么 它 
可 能 位 于 /metadata/movielens/movie/movie.avsc。 第 10 章 将 详细 讨论 这 一 特定 示例 。 


1.2.2 ”高 级 HDFS 模 式 设计 

一 旦 确定 了 大 体 的 目录 结构 ， 接 下 来 就 要 决定 如 何 将 数据 组 织 到 文件 中 。 我 们 讨论 过 ， 数 
据 加 载 形成 的 格式 可 能 不 是 存储 数据 的 最 佳 格式 ， 但 值得 注意 的 是 ， 数 据 加 载 的 默认 组 织 
形式 也 不 一 定 是 最 好 的 。 我 们 可 以 采用 一 些 策略 ， 对 数据 作出 最 好 的 安排 和 组 织 。 这 里 将 
讨论 分 区 、 分 桶 以 及 反 向 规范 化 。 

1. 分 区 

对 数据 集 进 行 分 区 是 一 种 很 常见 的 技术 ， 目 的 是 减少 处 理 该 数据 集 时 所 需要 的 TO。 处 理 
大 量 数据 时 ， 减 少 JO 带 来 的 好 处 显而易见 。 但 是 ， 与 传统 数据 仓库 不 同 的 是 ，HDFS 不 
会 将 索引 存储 到 数据 中 。 索 引 减 少 了 ， 数 据 加 载 速度 会 有 所 提升 ， 但 是 也 意味 着 每 次 查询 
都 将 读 取 整个 数据 集 ， 只 处 理 一 个 小 的 数据 子 集 ( 即 全 表 扫描 ，full table scan) 时 也 是 如 
此 。 当 数据 集 很 大 ， 而 查询 仅 访问 数据 的 子 集 时 ， 一 个 很 好 的 解决 办 法 就 是 将 数据 集 分 为 
更 小 的 子 集 或 者 分 区 。 整 个 数据 集 对 应 一 个 目录 ， 而 每 个 分 区 都 会 在 这 个 目录 的 子 目录 中 
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呈现 。 这 就 使 得 查询 可 以 只 读 取 所 需 的 特定 分 区 〈 比 如 子 目录 )， 因 而 减少 了 IO ， 也 显著 
地 提高 了 查询 性 能 。 

举 个 例子 ， 你 建立 了 一 个 存储 订单 的 数据 集 ， 订 单 内 容 为 各 种 药品 ， 数 据 集 的 名 字 为 
medication_orders。 你 想 查看 过 去 三 个 月 中 一 个 药剂 师 的 订单 。 如 果 不 分 区 ， 你 就 必须 读 
取 整 个 数据 集 ， 然 后 筛 掉 所 有 与 查询 不 相符 的 记录 。 
但 是 ， 如 果 我 们 对 整个 订单 数据 集 进行 分 区 ， 让 每 个 分 区 只 包含 一 天 的 数据 ， 那 么 查询 过 
去 三 个 月 的 数据 就 只 需要 读 取 大 约 90 个 分 区 ， 而 不 是 整个 数据 集 。 

将 数据 存储 于 文件 系统 时 ， 应 该 使 用 以 下 目录 格式 进行 分 区 : < 数据 集 名 称 >/< 分 区 列 名 = 
分 区 列 值 >/{ 文件 }。 在 这 个 例子 ,分 区 写作 : medication_orders/date=20131101/{orderl. 
CSV, order2.csv}。 


包括 HCatalog、Hive、Impala 和 Pig 在 内 的 很 多 工具 都 可 以 识别 这 种 目录 结构 。 这 些 工具 
可 以 利用 分 区 减少 处 理 数 据 集 时 所 需要 的 IO。 


2. 分 桶 

分 桶 是 另外 一 种 技术 ， 能 将 大 数据 集 分 解 为 更 容易 处 理 的 数据 集 。 分 桶 与 许多 关系 型 数 
据 库 所 使 用 的 哈 希 分 区 相 类 似 。 在 先前 的 例子 中 ， 我 们 可 以 将 订单 数据 集 按照 日 期 进行 
分 区 。 这 是 因为 每 天 都 有 大 量 的 订单 ， 而 分 区 所 包含 的 文件 足够 大 ，HFDS 的 优化 得 以 体 
现 。 但 是 ， 如 果 我 们 试图 按照 药剂 师 对 数据 进行 分 区 ， 以 优化 针对 药剂 师 的 查询 ， 那 么 分 
区 数量 可 能 会 特别 多 ， 而 且 分 区 文件 可 能 会 特别 小 。 这 就 会 导致 小 文件 的 问题 (small files 
problem)。 因 为 HDFS 会 将 每 个 文件 的 元 数据 都 存储 于 内 存 中 ， 所 以 如 1.1.2 节 中 所 讲 的 ， 
在 Hadoop 中 存储 大 量 的 小 文件 会 导致 NameNode 内 存 的 过 量 使 用 。 同 样 ， 小 文件 越 多 ， 
要 处 理 的 任务 就 越 多 ， 数 据 处 理 的 压力 就 会 非常 大 。 


这 个 问题 的 解决 方法 就 是 对 药剂 师 进行 分 桶 ， 即 使 用 哈 希 函数 将 药剂 师 映 射 到 数量 特定 的 
桶 。 这 样 ， 数 据 子 集 ( 即 桶 ) 的 大 小 就 受到 了 控制 ， 查 询 速 度 也 得 到 了 提升 。 文 件 不 应 该 
太 小 ， 否 则 就 会 有 大 量 的 小 文件 需要 读 取 和 管理 。 但 是 文件 也 不 能 太 大 ， 扫 描 大 量 数据 会 
减 慢 查询 速度 。 一 般 来 说 ， 桶 的 大 小 达到 HDFS 数据 块 大 小 的 若干 倍 会 比较 合适 。 哈 希 到 
桶 列 时 ， 数 据 的 平均 分 布 至 关 重 要 。 这 是 因为 平均 分 布 可 以 保证 桶 的 稳定 性 。 通 常 ， 桶 的 
数量 是 2 的 N 次 需 。 

当 关 联 两 个 数据 集 时 ， 分 桶 的 另 一 个 好 处 就 显而易见 了 。 这 里 的 关联 指 的 就 是 一 种 很 常见 
的 概念 : 将 两 个 数据 集 关 联 ， 得 到 一 个 结果 。 一 些 SQL-on-Hadoop 系统 能 够 进行 以 上 所 说 
的 关联 ，MapReduce、Spark 或 其 他 Hadoop 的 编程 接口 也 可 以 完成 关联 。 


如 果 关 联 的 数据 集 恰好 按照 关联 的 键 分 桶 ， 而 且 一 个 数据 集中 桶 的 数量 是 另 一 个 的 倍数 ， 
那么 就 足够 单独 关联 相应 的 桶 ， 而 不 需要 关联 整个 数据 集 了 。 这 显著 降低 了 两 个 数据 集 
执行 Reduce 端 关联 (Reduce-side join) 的 时 间 复 杂 度 。 这 是 因为 Reduce 端的 关联 非常 消 
耗资 源 。 但 是 ， 如 果 关 联 的 是 两 个 桶 数据 集 ， 而 不 是 两 个 整数 据 集 ， 那 么 关联 相应 的 桶 即 
可 。 这 样 就 可 以 减少 关联 损耗 。 当 然 ， 来自 两 个 表 的 不 同 的 桶 可 以 并 行 关联 。 另 外 ， 分 桶 
之 后 数据 量 通 常 都 比较 小 ， 一 般 能 够 放 入 内 存 。 所 以 整个 关联 操作 可 以 在 Map-Reduce 任 
务 的 Map 阶段 通过 将 小 桶 加 载 到 内 存 中 进行 。 这 就 是 所 谓 的 Map 闯关 联 (Map-side join)， 
与 Reduce 端 关联 相 比 ， 它 的 性 能 更 好 。 如 果 使 用 Hive 进行 数据 分 析 ， 应 该 能 自动 识别 分 






































































































































































































































Hadoop 数 据 建 模 | 15 
图 灵 社 区 会 员 largelove(largelove@163.com) 专 享 尊重 版 权 


桶 的 表 并 执行 这 种 优化 。 

如 果 桶 中 的 数据 是 有 序 的 (sorted)， 那 么 就 可 以 使 用 合并 连接 (merge join) ， 而 且 关 联 时 
不 会 将 整个 桶 都 存 和 内存。 这 比 简单 的 桶 关联 (bucket Join) 更 快 ， 而 且 更 加 节省 内 存 。 
Hive 也 支持 这 种 优化 。 注 意 ， 任 何 一 个 表 都 可 以 分 桶 ， 在 没有 逻辑 意义 的 分 区 点 上 也 是 
如 此 。 对 于 经 常 进行 关联 操作 的 大 表 ， 最 好 对 数据 进行 排序 和 分 桶 ， 而 且 要 按照 关联 字段 
分 桶 。 


正如 先前 所 讨论 的 ， 模 式 设计 高 度 依赖 数据 查询 的 方式 。 在 决定 数据 分 区 与 分 桶 之 前 ， 你 
需要 了 解 有 哪些 列 要 用 于 关联 和 过 滤 。 如 果 存 在 多 个 普通 查询 模式 ， 而 且 很 难 决定 分 区 字 
段 ， 那 么 可 以 选择 多 次 存储 同一 数据 ， 每 次 都 采用 不 同 的 物理 组 织 形式 。 这 在 关系 型 数据 
库 中 称 作 反 模 式 设计 ， 但 是 在 Hadoop 中 ， 这 种 是 一 种 可 行 的 方案 。 首 先 ，Hadoop 中 的 数 
据 通常 是 一 次 性 写 入 的， 而 且 几 乎 不 会 进行 更 新 。 由 此 ， 同 步 保 存 复制 的 数据 集 带 来 的 损 
耗 通 常会 大 大 减少 。 另 外 ，Hadoop 集群 的 存储 成 本 也 显著 地 降低 了 ， 所 以 更 不 用 担心 浪 
费 磁盘 空间 。 应 用 这 些 特性 ， 我 们 可 以 用 一 部 分 空间 换取 更 快 的 查询 速度 ， 这 样 做 通常 会 
带 来 让 人 满意 的 结果 。 

3. 反 向 规范 化 

先前 的 小 节 讨 论 了 关联 。 除 此 之 外 ， 还 有 一 种 方法 可 以 用 磁盘 空间 换取 查询 性 能 ， 也 就 是 
将 数据 集 反 向 规范 化 ， 削 减 关联 数据 集 的 需求 。 在 关系 型 数据 库 中 ， 数 据 通 党 以 第 三 范式 
(third normal form) 存储 。 该 模式 将 数据 分 片 成 更 小 的 表 ， 使 每 个 表 都 含有 一 个 特定 的 实 
体 ， 从 而 将 元 余 减 到 最 少 并 且 提 供 数 据 完整 性 。 这 意味 着 大 多 数 查 询 为 了 得 到 最 后 的 结果 
数据 集 ， 需 要 将 大 量 的 表 关联 在 一 起 。 

但 是 ， 在 Hadoop 中 ， 关 联通 常 是 最 慢 的 操作 ， 而 且 消 耗 的 集群 资源 最 多 。Reduce 端的 关 
联 尤 其 如 此 ， 因 为 它 需 要 通过 网 络 分 发 表 的 所 有 数据 。 就 像 我 们 已 经 看 到 的 ， 重 点 在 于 通 
过 优化 模式 尽量 避免 这 些 代价 高 昂 的 操作 。 分 桶 与 排序 在 这 里 很 实用 ， 另 外 一 种 方法 是 让 
数据 集 预 先 连 接 ， 这 就 是 预 聚 合 。 这 里 的 思路 是 尽量 提前 进行 查询 ， 尤 其 是 那些 很 有 可 能 
经 常 执行 的 查询 或 者 子 查询 ， 预 先 将 查询 的 工作 量 减 到 最 少 。 用 户 不 必 每 次 查看 数据 时 都 
运行 关联 操作 ， 我 们 可 以 一 次 性 关联 数据 ， 并 将 其 存储 起 来 。 

针对 特定 的 使 用 案例 ， 观 察 典 型 的 在 线 事务 处 理 (Online Transaction Processing，OLTP) 
模式 与 HDFS 模式 之 间 的 差异 ， 你 会 发 现 ，Hadoop 在 ETL 处 理 过 程 中 将 很 多 小 维度 表 联 
合 至 更 大 的 维度 。 在 先前 关于 药品 的 示例 中 ， 为 了 避免 重复 关联 ， 我 们 将 频率 、 类 别 、 管 
途径 以 及 单元 关联 到 了 药品 数据 集 。 

其 他 类 型 的 数据 预 处 理 ， 如 聚合 或 者 数据 类 型 转换 ， 也 都 能 加 快 处 理 速 度 。 因 为 数据 重复 
不 是 什么 特别 大 的 问题 ， 所 以 大 量 查询 中 经 常 出 现 的 处 理 类 型 都 值得 一 次 性 处 理 ， 重 复 使 
用 。 在 关系 型 数据 库 中 ， 这 种 模式 就 是 所 谓 的 物化 视图 (Materialized Views)。 在 Hadoop 
中 ， 这 需要 创建 一 个 新 的 数据 集 ， 包 含 其 聚合 格式 中 的 相同 数据 。 


1.2.3 HDFS 模 式 设计 总 结 


我 们 在 此 概述 一 下 重点 。 本 市 介绍 了 通过 有 选择 地 读 写 特定 分 区 中 的 数据 ， 使 用 分 区 技术 
减少 数据 处 理 所 需 的 WO。 我 们 还 学 习 了 如 何 使 用 分 桶 技术 ,减少 WO， 从 而 加 快 关 联 及 采 
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样 的 查询 速度 。 最 后 ， 我 们 明白 了 反 向 规范 化 在 加 快 Hadoop 任务 处 理 速度 方面 起 到 的 重要 
作用 。 我 们 已 经 对 HDFS 设计 模式 有 了 大 致 了 解 ， 下 面 将 讨论 HBase 模式 设计 的 相关 概念 。 


1.3 HBase 模 式 设计 


本 节 将 描述 如 何 设计 良好 的 HBase 数据 存储 设计 模式 。HBase 是 一 个 很 复杂 的 话题 ， 已 经 
有 很 多 书籍 介绍 了 HBase 的 使 用 与 优化 。 本 章 将 从 更 高 的 层面 介绍 HBase， 主 要 关注 那些 
通过 HBase 解决 常见 问题 的 通用 设计 模式 。 想 了 解 HBase， 请 参阅 《HBase 权威 指南 》 和 
《HBase 实战 》。 


首先 需要 理解 的 是 ，HBase 不 是 关系 型 数据 库 管 理 系统 (Rational Database Management 
System ，RDBMS )。 实 际 上 ， 为 了 更 好 地 理解 HBase 的 工作 方式 ， 最 好 把 HBase 当 作 一 个 
巨大 的 哈 希 表 。 与 哈 希 表 相 同 的 是 ，HBase 允许 用 户 将 指定 的 键 和 特定 值 进行 关联 ， 这 样 
一 来 ， 基 于 给 定 的 键 就 能 快速 查找 到 相应 的 值 。 


相 比 哈 希 表 ，HBase 在 应 用 时 涉及 的 细节 更 多 ， 包 括 Region 和 Compaction 的 工作 原理 、 

向 HBase 导入 数据 的 不 同 策略 ， 以 及 数据 块 缓 存 的 使 用 和 理解 。 不 过 ，HBase 仍然 值得 同 

哈 希 表 进 行 类 比 ， 主 要 是 因为 HBase 更 多 地 被 当 作 一 种 分 布 式 键 值 存储 ， 而 不 是 RDBMS。 

这 样 你 会 联想 到 get、put、scan、increment 和 delete 等 请 求 ， 而 不 是 SQL 查询 。 

在 关注 可 以 在 HBase 中 完成 的 操作 之 前 ， 我 们 先 回顾 一 下 哈 希 表 支 持 的 操作 。 

(1) 将 数据 放置 于 哈 希 表 中 。 

(2) 从 哈 希 表 中 获取 数据 。 

(3) 迭代 访问 哈 希 表 [ 注意: HBase 通过 范围 扫描 (range scan) 提供 了 更 为 强大 的 迭代 访 
问 策略 ， 能 够 在 扫描 时 指定 开始 行 和 结束 行 ]。 

(4) 对 哈 希 表 中 的 一 项 增值 。 

(5) 删除 哈 希 表 中 的 值 。 

这 样 ， 放 弃 SQL 而 使 用 HBase 的 理由 也 一 目 了 然 了 。HBase 的 价值 在 于 可 扩展 性 和 灵 

活性 。HBase 在 很 多 应 用 中 都 非常 实用 ， 常 用 于 欺诈 检测 ， 第 9 章 将 详细 讲解 。 总 之 ， 

HBase 能 够 通过 get 与 put 请 求解 决 问题 。 

我 们 已 经 对 HBase 有 了 大 致 的 了 解 ， 也 学 习 了 背景 知识 ， 下 面 就 从 架构 的 角度 讨论 如 何 设 

计 一 个 良好 的 HBase 模式 。 


1.3.1 行 键 

继续 与 哈 希 表 类 比 ，HBase 中 的 行 键 类 似 于 哈 希 表 中 的 键 。 要 构造 一 个 良好 的 HBase 模 
式 ， 关 键 之 一 就 是 选择 一 个 合适 的 行 键 。 下 面 介绍 行 键 在 HBase 中 的 具体 应 用 方式 ， 以 及 
如 何 选 择 行 键 。 

1. 记录 检索 

行 键 是 在 HBase 中 检索 记录 所 使 用 的 键 。HBase 记录 含有 的 列 在 数量 上 没有 限制 ， 但 是 只 
能 有 一 个 行 键 。 这 一 点 同 关系 型 数据 库 有 所 不 同 ， 后 者 的 主键 可 以 由 多 个 列 组 合 构成 。 既 
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然 要 为 记录 创建 唯一 的 行 键 ， 那 么 单一 的 行 键 就 需要 包含 多 种 信息 。 例 如 ， 如 果 一 行 表示 
一 个 订单 ， 那 么 customer_id，order_id， timestamp 可 以 作为 该 行 的 行 键 。 在 关系 型 数据 
库 中 ，customer_ id、order id 和 timestamp 是 三 个 分 开 的 列 ， 而 HBase 中 三 者 需要 组 合 形 
成 一 个 独特 的 标识 符 。 

选择 行 键 时 需要 记 住 的 另外 一 点 是 ， 单 一 记录 中 的 get 操作 是 HBase 中 最 快 的 操作 。 因 
此 ， 在 设计 HBase 模式 时 ， 用 get 操作 解决 大 多 数 和 常见 的 数据 使 用 问题 ， 这 样 会 提高 处 理 
性 能 。 这 可 能 意味 着 将 大 量 数据 放 到 单一 记录 中 ， 比 关系 型 数据 库 中 存放 的 数据 多 。 这 样 
的 设计 被 称 作 反 向 规范 化 ， 不 同 于 关系 型 数据 库 中 常见 的 规范 化 设计 。 比 如 ， 关 系 型 数据 
库 可 能 会 将 消费 者 存在 一 个 表 中 ， 将 其 联系 方式 存在 男 一 个 表 中 ， 又 将 订单 存在 第 三 个 表 
中 ， 而 订单 详情 存在 另外 的 表 中 。HBase 则 会 设计 非常 宽 的 表 ， 即 每 一 个 订单 记录 都 包含 
该 订单 的 所 有 信息 ， 也 包含 消费 者 及 其 联系 方式 。 单 一 的 get 操作 可 以 检索 所 有 的 数据 。 
2. 分 布 

对 于 一 个 给 定 的 表 ， 记 录 在 HBase 集群 多 个 Region 中 的 分 布 方式 是 由 行 键 决定 的 。HBase 
中 所 有 的 行 键 都 进行 了 排序 ， 经 过 排序 的 行 键 按照 范围 存储 在 不 同 的 Region 中 。 每 个 
Region 都 固定 在 一 个 Region 服务 器 〈 即 集群 中 的 一 个 节点 ) 上 。 


行 键 有 一 个 著名 的 的 反 模式 设计 ， 那 就 是 时 间 惟 的 使 用 。 在 行 键 中 使 用 时 间 惟 可 以 将 大 多 
数 put 和 get 请 求 集中 在 单一 的 Region 上 ， 进 而 集中 在 单一 的 Region 服务 器 上 。 于 是 ， 
在 某 种 程度 上 ，HBase 不 再 是 一 个 分 布 式 系统 。 一 般 来 说 ， 选 择 行 键 的 最 合理 标准 是 让 集 
群 的 负载 分 布 均匀 。 本 章 后 面 将 会 谈 到 ， 解 决 该 问题 的 一 个 方法 就 是 对 键 进行 salt 处 理 。 
在 机 器 数据 的 键 salt 处 理 上 ， 设 备 ID 与 时 间 改 结合 以 及 反 转 时 间 改 的 使 用 尤为 常见 。 


3. 数据 块 缓存 

数据 块 缓存 是 一 种 最 近 最 少 使 用 的 (Least Recently Used, LRU) 缓存 ， 能 将 数据 块 缓存 
到 内 存 中 。 默 认 情 况 下 ，HBase 按照 64KB 的 块 大 小 从 磁盘 中 读 取 记录 ， 每 一 个 这 样 的 数 
据 块 都 是 一 个 HBase 数据 块 (HBase block)。 从 磁盘 中 读 取 的 时 候 ，HBase 数据 块 会 放置 
在 数据 块 缓存 中 。 但 是 ， 你 也 可 以 不 将 HBase 数据 块 放 到 数据 块 缓存 中 。 之 所 以 要 进行 组 
存 ， 是 因为 最 近 访 问 的 数据 (以 及 与 这 些 数据 同 在 一 个 HBase 数据 块 中 的 数据 ) 很 有 可 能 
在 不 久之 后 再 次 被 请 求 访问 。 但 是 ， 由 于 数据 块 缓存 的 大 小 有 所 限制 ， 所 以 应 该 谨慎 明智 
地 使 用 它 。 

选择 不 合适 的 行 键 会 导致 不 理想 的 数据 块 缓存 分 布 。 比 如 ， 如 果 选 择 某 个 属性 的 哈 希 作为 
行 键 ， 那 么 HBase 数据 块 中 的 那些 记录 很 可 能 并 不 相关 。 这 样 一 来 ， 数 据 块 缓存 中 将 填充 
不 相关 的 记录 ， 导 致 缓存 的 命中 率 会 非常 低 。 在 这 种 情况 下 ， 可 以 采用 另外 一 种 设计 : 对 
行 键 的 第 一 个 部 分 进行 salt 处 理 ， 让 同一 个 HBase 数据 块 中 同时 获取 的 数据 之 间 按 行 键 有 
序 排列 。salt 处 理 是 对 原来 的 键 或 键 的 一 部 分 做 哈 希 取 模 ， 所 以 可 以 单独 地 通过 原始 键 生 
成 。 我 们 将 在 第 9 章 举例 讲解 键 的 salt 处 理 。 

4. 支持 扫描 

选择 合适 的 行 键 能 够 使 相关 的 记录 位 于 同一 个 Region。 这 有 助 于 进行 范围 扫描 ， 因 为 
HBase 只 需 扫描 一 定数 目的 Region 就 可 以 获取 结果 。 另 外 ， 如 果 行 键 选择 不 合适 ， 范 围 扫 
描 在 获取 数据 时 可 能 需要 扫描 多 个 Region 服务 器 ， 随 后 还 要 过 滤 掉 不 相关 的 记录 。 这 样 一 









































































































































18 | 第 1 章 
图 灵 社 区 会 员 largelove(largelove@163.com) 专 享 尊重 版 权 


来 ， 同 样 的 请 求 就 增加 了 额外 的 JO。 另 外 ， 要 记得 HBase 的 扫描 速度 大 约 是 HDFS 的 八 
分 之 一 ， 降 低 IO 要 求 能 显著 提高 性 能 。 与 HDFS 上 的 数据 存储 相 比 ，HBase 在 这 一 点 上 
更 为 明显 。 

5. 行 键 大 小 

行 键 的 大 小 将 决定 工作 负载 的 性 能 。 通 常 来 说 ， 行 键 越 短 越 好 ， 因 为 这 样 可 以 降低 存储 消 
耗 ， 提 高 读 写 性 能 。 但 是 ， 行 键 较 长 时 ，get 和 scan 的 性 能 更 好 。 因 此 ， 在 选择 时 ， 需 要 
权衡 行 键 的 长 短 。 

下 面 看 一 个 例子 。 表 1-1 为 HBase 中 包含 三 条 记录 的 表 。 

表 1-1: HBase 表 举例 

行 键 时 间 惟 列 值 

RowKeyA Timestamp |ColumnA ValueA 














RowKeyB Timestamp “| ColumnB ValueB 














RowKeyC Timestamp |ColumnC ValueC 


行 键 越 长 ， 压 缩编 解码 在 存储 行 键 时 需要 处 理 的 IO 就 越 多 。 同 理 ， 列 的 名 称 越 长 ， 需 要 
处 理 的 IO 也 越 多 。 所 以 一 般 来 说 ， 保 持 列 的 名 称 短 一 些 比较 好 。 


可 以 使 用 Snappy 配置 HBase， 压 缩 行 键 。 因 为 行 键 按 照排 序 进行 存储 ， 所 
以 行 键 之 间 的 排列 比较 紧密 时 ， 压 缩 效果 较 好 。 这 就 是 不 宜 将 革 个 属性 的 哈 
希 作 为 行 键 的 另 一 个 原因 ， 因 为 行 键 的 排序 是 任意 的 。 












































6. 可 读 性 

可 读 性 是 比较 主观 的 概念 。 但 是 既然 行 键 的 应 用 非常 常见 ， 那 么 它 的 可 读 性 就 不 容 小 凯 。 
一 般 来 说 ， 你 应 当先 接触 可 读 性 比较 好 的 行 键 ， 如 果 你 还 不 太 习 惯 HBase， 那 就 更 应 该 这 
样 做 了 。 这 能 让 你 更 为 轻松 地 发 现 和 调试 问题 ， 也 更 容易 使 用 HBase 操作 人 台 。 

7. 唯一 性 

因为 行 键 等 同 于 哈 希 表 类 比 中 的 键 ， 所 以 确保 行 键 的 唯一 性 非常 重要 。 如 果 你 选择 了 一 个 
基于 非 独特 属性 的 行 键 ， 那 么 应 用 应 该 处 理 这 种 情况 ， 而 且 只 能 通过 唯一 的 行 键 把 数据 存 
入 HBase。 


1.3.2 ”时 间 截 


要 获得 良好 的 HBase 模式 设计 ， 第 二 个 要 点 是 正确 理解 和 使 用 时 间 惟 。 在 HBase 中 ， 时 间 
戳 的 作用 如 下 所 述 。 


。 时 间 惟 决定 了 在 put 请 求 修改 记录 时 哪些 记录 更 新 。 

。 时 间 惟 决定 了 一 条 记录 的 多 个 版 本 在 返回 时 的 排序 。 

。 时 间 蕉 还 用 于 大 合并 (Major Compaction) 过 程 ， 决 定 是 否 移 除 与 时 间 惟 相 比 已 超过 存 
活 时 间 (Time-To-Live，TTL) 的 过 期 记录 。 "过 期 ”意味 着 记录 的 值 已 经 被 其 他 的 put 
操作 重复 写 人 过， 或 者 该 记录 已 被 删除 。 
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默认 情况 下 ， 写 人 和 更 新 记录 要 使 用 集群 节点 上 那个 时 刻 的 时 间 惟 。 大 多 数 情况 下 ， 这 
也 是 很 正确 的 选择 ， 但 某 些 情况 例外 。 比 如 ， 实 际 情况 下 交易 真正 发 生 的 时 间 通 常会 和 
HBase 的 记录 时 间 存 在 几 个 小 时 或 几 天 的 延迟 。 这 种 情况 下 ， 通 常 以 交易 实际 的 发 生 时 间 
设置 时 间 戳 。 





1.3.3 hop 
hop 指 在 HBase 中 检索 请 求 信息 时 ， 所 采用 的 同步 get 请 求 的 数量 。 


让 我 们 来 看 一 个 例子 。 例 子 中 的 表格 为 一 个 HBase 表 ， 展 现 了 人 与 人 之 间 的 关系 。 表 1-2 
是 一 张 个 人 信息 表 ， 包含 了 姓名 、 朋 友 名 单 以 及 每 个 人 的 住址 。 


表 1-2: 个 人 信息 表 (Person) 























姓名 好 友 地 址 

David Barack，Stephen ”| 唐宁 街 10 号 
Barack Michelle 白宫 

Stephen Barack 塞 克 斯 街 24 号 























现在 ， 再 次 回顾 拿 来 做 类 比 的 哈 希 表 。 如 果 想 查找 David 所 有 朋友 的 住址 ， 你 需要 发 起 两 
次 hop 请 求 。 第 一 个 hop 获取 David 所 有 朋友 的 列表 ， 而 第 二 个 hop 查询 David 的 朋友 的 
住址 。 


我 们 来 看 另 一 个 例子 。 表 1-3 为 一 张 学 生 表 ， 包 含 学 生 的 学 号 和 名 字 。 表 1-4 为 一 张 课程 
表 ， 包 含 学 生 的 学 号 和 每 名 学 生 所 选 的 课程 。 






































表 1-3: 学 生 表 
Er 学 生 名 字 
11001 Bob 
11002 David 
11003 Charles 
表 1-4: 课程 表 
二 课程 名 称 
11001 化 学 、 物 理 
11002 数学 
11003 历史 
现在 ， a ol hi 一 个 hop 请 求 从 学 生 表 中 检索 
Charles 的 学 第 二 个 hop 请 求 通 过 学 号 检索 Charles 5 汪 国 0 单 。 








正如 1.2.2 节 中 提 到 的 ， 反 向 规范 化 能 够 减少 请 求 所 需要 的 hop 数量 。 上 述 例子 佐证 了 这 
种 方法 的 可 取 之 处 。 

上 总之， 尽管 HBase 可 能 需要 多 个 hop 请 求 ， 但 最 好 还 是 通过 更 优秀 的 模式 设计 避免 多 次 
hop 请 求 〈 比 如 ， 利 用 反 向 规范 化 )。 这 是 因为 每 一 个 hop 都 是 从 访问 HBase 到 返回 数据 
的 来 回 ,会 有 显著 的 性 能 消耗 。 
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1.3.4 表 和 Region 








另 一 个 影响 性 能 与 数据 分 布 的 因素 是 HBase 中 表 的 数量 以 及 每 个 表 的 Region 数 上 








分 配 不 合理 ,集群 一 个 市 点 或 多 个 市 点 的 负载 会 出 现 显著 的 不 均衡 。 











l=} 





图 1-3 为 含有 三 个 节点 的 HBase 集群 中 ，Region 服务 器 、Region 与 表 的 拓扑 结构 。 


且 。 


如 果 





市 点 1 节点 2 
Region 服 务 器 Region 服 务 器 
表 A 的 表 A 的 表 B 的 “上 | 表 B 的 
Region Region Region Region 
表 B 的 表 C 的 “ 辆 表 A 的 
Region Region Region 





节点 3 


Region 服 务 器 


表 A 的 
Region 


表 C 的 
Region 


表 B 的 
Region 


表 B 的 
Region 








1-3: Region 服务 器 、Region 与 表 的 拓扑 结构 


以 下 是 值得 注意 的 几 点 。 
。 每 个 节点 包含 一 个 Region 服务 器 。 
。 每 个 Region 服务 器 包含 多 个 Region。 


。 任何 时 候 ， 一 个 给 定 的 Region 存在 一 个 特定 的 Region 服务 器 上 。 
。 表 被 分 成 多 个 Region， 而 且 散 布 在 Region 服务 器 中 。 一 个 表 至 少 要 包含 一 个 Region。 


对 于 一 个 给 定 的 表 ，Region 的 数目 可 以 参照 两 条 经 验 法 则 进行 选择 。 这 两 条 法 则 权衡 了 











put 请 求 的 性 能 与 Region 合并 时 间 。 
1. put 操 作 的 性 能 











Region 服务 器 中 所 有 接收 到 put 请 求 的 Region 都 会 共享 Region 服务 器 的 memstore。 
memstore 是 每 个 HBase Region 服务 器 都 有 的 一 种 缓存 结构 。memstore 能 缓存 发 送 到 
Region 服务 器 的 写 入 ， 并 对 它们 进行 排序 ， 直 到 达到 特定 的 内 存 闷 值 ， 冲 刷 写 入 磁盘 。 
此 ，Region 服务 器 中 的 Region 越 多 ， 每 个 Region 可 用 的 memstore 空间 就 越 少 。 这 可 能 会 
导致 冲刷 变 小 ， 较 小 的 冲刷 又 可 能 带 来 更 小 、 更 多 的 HFile 和 更 多 较 小 的 合并 ， 由 此 导致 








性 能 降低 。 默 认 的 配置 将 理想 的 冲刷 大 小 设置 为 100 MB ， 如 果 确 定 了 memstore 的 大 小 并 























分 区 ， 使 每 个 区 为 100 MB ， 那 么 Region 服务 器 就 会 合理 地 得 到 最 多 数量 的 Region。 


2. 合并 时 间 





Region 越 大 ， 合 并 花费 的 时 间 就 越 多 。 从 经 验 上 来 说 ，Region 的 大 小 至 多 为 20 GB， 但 是 





也 有 一 些 非常 成 功 的 集群 ，Region 的 大 小 能 够 达到 120 GB。 





HBase 表 分 配 Region 的 方式 有 以 下 两 种 。 





。 默认 情况 下 ， 一 个 表 只 有 一 个 Region， 并 随 着 数据 的 增加 自动 分 片 。 
。 创建 表 时 ， 指 定 一 个 Region 数量 ， 而 且 将 Region 的 大 小 设置 为 一 个 足够 大 的 值 (比如 


每 个 Region 100 GB) 以 避免 自动 分 片 。 
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在 选择 Region 分 配方 式 之 前 ， 你 需要 首先 确定 选择 了 正确 的 分 片 策略 。 大 多 数 情况 下 ， 你 
应 当选 择 ConstantSizeRegionSplitPolicy 或 者 DisabledRegionSplitPolicy。 

大 多 数 情况 下 ， 我 们 建议 预先 分 配 Region 的 数量 ( 即 采 用 第 二 种 方式 )， 这 样 可 以 避免 分 
片 随机 进行 ， 避 免 自 动 分 片 导致 范围 不 理想 ， 影 响 性 能 。 

但 是 ， 还 有 一 些 情况 应 该 采用 自动 分 片 。 比 如 ， 如 果 一 个 不 断 增长 的 数据 集 只 更 新 最 新 
的 数据 ， 那 么 它 就 更 适合 采用 自动 分 片 。 如 果 该 表 的 行 键 由 {Salt}{SeqID} 组 成 ， 那 么 写 
操作 可 能 受到 控制 ， 分 发 到 一 系列 固定 的 Region 上 。 既 然 Region 自动 分 片 ， 那 么 旧 的 
Region 也 就 不 需要 合并 了 (除非 是 基于 TTL 的 周期 性 合并 )。 


1.3.5 ”使 用 列 


相 比 传统 RDBMS， 列 的 概念 在 HBase 表 中 大 不 相同 。 与 RDBMS 不 同 ， 在 HBase 中 ， 一 
条 记录 可 以 拥有 上 百 万 个 列 ， 而 且 下 一 个 记录 可 以 拥有 百 万 个 完全 不 同 的 列 。 我 们 一 般 不 
建议 这 么 做 ， 但 这 的 确 可 以 实现 ， 而 且 了 解 二 者 的 差异 也 很 重要 。 

为 了 阐明 以 上 内 容 ， 我 们 先 来 看 一 下 HBase 是 如 何 存储 记录 的 。HBase 存储 数据 的 格式 被 
称 作 HFile。 每 个 列 值 在 HFile 中 都 有 自己 的 行 。 该 行 包含 行 键 、 时 间 戳 、 列 名 以 及 列 值 
等 字段 。HFile 格式 还 提供 了 很 多 其 他 功能 ， 如 版 本 化 和 稀疏 列 存储 。 但 是 为 了 便于 说 明 ， 
下 面 的 例子 不 涉及 这 些 功能 。 

比如 ， 如 果 表 含有 两 个 逻辑 列 ，foo 与 bar， 那 么 第 一 个 选择 是 创建 一 个 HBase 表 ， 包 含 两 
列 ， 名 称 为 foo 和 bar。 这 种 做 法 的 好 处 如 下 。 

。 能 够 一 次 得 到 一 列 ， 其 他 列 不 受 影响 。 

。 能 够 修改 每 一 列 ， 其 他 列 不 受 影响 。 

。 每 列 都 有 独立 的 TTL。 

但 是 ， 这 些 好 处 也 有 一 定 代价 。HBase 表 中 的 一 条 逻辑 记录 ， 在 HFile 中 会 存 成 两 行 。 磁 
盘 中 HFile 的 结构 如 下 。 

行 键 时 间 戳 列 值 

101 1395531114 |F Al 

101 1395531114 |B Bl 


另 一 个 选择 是 把 foo 和 bar 的 值 放 在 同一 个 HBase 列 中 。 这 种 选择 适用 于 表 中 的 所 有 记录 ， 
而 且 具 有 以 下 特点 。 


。 同一 时 刻 能 够 获取 两 列 的 值 。 如 果 有 一 列 不 需要 ， 则 可 以 选择 放弃 那 一 列 。 
。 因为 两 个 列 值 作为 一 个 单一 实体 ( 列 ) 存储 ， 所 以 更 新 任何 一 个 列 ， 整 个 列 都 会 更 新 。 
。 基于 最 后 一 次 更 新 时 间 ， 两 列 的 TTL 相同 。 


这 种 情况 ，HFile 的 结构 如 下 。 
行 键 时 间 截 列 值 


101 1395531114 |X AllB1 


可 以 占用 的 磁盘 空间 大 小 也 决定 了 如 何 设计 HBase 的 模式 ， 尤 其 是 列 的 数量 。 它 决定 了 以 
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下 几 点 。 

。 数据 块 缓存 中 能 够 存放 多 少 记录 ， 

。 多 少数 据 能 进入 HBase 维持 的 Write-Ahead-Log 中 ， 

。 memstore 的 一 次 冲刷 可 以 写 入 多 少 记 录 ; 

。 合并 需要 多 长 时 间 。 

注意 ， 之 前 例子 中 列 的 名 称 为 一 个 字符 。 在 HBase 中 ， 就 像 你 所 看 到 的 ， 列 
与 行 键 的 名 称 在 HFile 中 占据 了 空间 。 这 里 建议 尽量 节省 空间 ， 所 以 通常 以 
单个 字符 为 列 名 。 












































1.3.6 ” 列 簇 

除了 列 ，HBase 中 也 包含 列 族 (column family) 的 概念 。 列 复 本 质 上 是 列 的 存储 容器 。 一 

张 表 可 以 有 一 个 或 多 个 列 复 。 每 个 列 复 都 有 自己 的 HFile 集合 ， 而 且 在 执行 合并 操作 时 ， 

同一 个 表 中 的 其 他 列 徐 不 受 影响 。 

在 很 多 使 用 案例 中 ， 一 张 表 不 需要 多 个 列 徐 。 如 果 一 张 表 中 的 一 部 分 列 操作 完成 ， 或 者 变 

化 频率 与 其 他 列 存在 显著 不 同 ， 则 可 以 使 用 一 个 以 上 的 列 复 。 

比如 ，HBase 表 含 有 两 列 : 列 1 每 行 包含 400 个 字 节 ， 而 列 2 每 行 包含 20 个 字 节 。 现 在 

我 们 假设 列 1 的 值 只 设置 一 次 ， 不 会 改变 ， 但 是 列 2 的 值 要 经 常 改变 。 另 外 ， 从 访问 模式 

上 看 ， 对 列 2 调用 的 get 请 求 远 多 于 针对 列 1 的 get 请 求 数 。 

这 种 情况 下 ， 采 用 两 个 列 徐 更 好 ， 原 因 如 下 。 

。 降低 合并 成 本 
如 果 有 两 个 独立 的 列 徐 ， 那 么 包含 列 2 的 列 得 会 经 常 刷 新 memstore， 所 以 会 产生 较 小 
的 合并 。 因 为 列 2 在 其 自身 的 列 复 中 ， 所 以 HBase 只 需要 合并 总 记录 中 5% 的 数据 ， 因 
此 合并 对 性 能 的 影响 更 小 。 

。 更 好 地 使 用 数据 块 缓存 
就 像 先 前 看 到 的 ， 从 HBase 中 检索 数据 时 ， 附 近 (位 于 同一 个 HBase 缓存 中 ) 的 记录 
会 拉 和 数据 块 缓存 中 。 如 果 列 1 与 列 2 在 同一 个 列 徐 中 ， 每 次 对 列 2 调用 get 请 求 时 都 
会 把 两 列 数 据 拉 到 缓存 中 。 缓 存 包 含 了 列 1 数据 ， 而 列 1 中 的 数据 接受 的 get 请 求 非常 
少 ， 使 用 的 频率 也 非常 低 ， 这 就 导致 了 不 理想 的 缓存 分 布 。 使 列 1 和 列 2 位 于 不 同 列 
香 ， 会 导致 缓存 中 填充 的 数据 仅 来 自 于 列 2， 因 此 增加 了 随后 对 列 2 调用 get 请 求 的 高 












































1.3.7 TTL 


TIL 是 HBase 的 一 个 内 置 特性 ， 即 基于 数据 的 时 间 戳 将 数据 清除 。 这 里 的 思路 是 ， 数 据 只 
需 存储 一 定时 间 ， 在 这 段 时 间 里 方便 使 用 即 可 。 所 以 ， 如 果 发 生 大 合并 时 ， 时 间 惟 早 于 过 
去 指定 的 TIL， 那 么 这 些 早 期 的 记录 不 会 纳入 大 合并 产生 的 HFile 中 ， 也 就 是 说 ， 随 着 数 
据 的 修整 ， 旧 的 记录 被 移 除 了 ， 不 再 作为 表 的 正常 数据 。 
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如 果 没 有 使 用 TTL， 而 且 仍 然 有 删除 历史 数据 的 需求 ， 那 么 就 需要 更 多 的 IO 密集 操作 。 
比如 ， 要 移 除 所 有 超过 7 年 的 数据 ， 如 果 不 使 用 TTL， 那 么 你 就 必须 扫描 7 年 中 每 天 的 
所 有 数据 ， 然 后 对 每 一 条 超过 7 年 的 记录 插入 一 条 删除 记录 。 你 不 仅 要 扫描 7 年 全 部 的 数 
据 ， 还 要 创建 新 的 删除 记录 ， 这 些 记 录 本 身 的 大 小 就 达到 了 几 个 TB。 而 且 ， 你 仍然 需要 
运行 大 合并 ， 才 能 最 终 将 那些 记录 从 磁盘 中 移 除 。 

最 后 需要 说 明 的 是 ，TTL 基于 HFile 记录 的 时 间 戳 。 如 前 所 述 ， 该 时 间 必 默认 为 记录 添加 
到 HBase 的 时 间 。 


1.4 ”元 数据 管理 


目前 为 止 ， 我们 已 经 讨论 了 Hadoop 中 最 好 的 数据 结构 化 设计 方式 ， 以 及 数据 存储 方式 。 
然而 ， 关 于 数据 的 元 数据 与 数据 同等 重要 。 本 市 将 讨论 Hadoop 生态 系统 中 元 数据 的 不 同 
格式 ， 以 及 如 何 充分 地 利用 它们 。 


1.4.1 ”什么 是 元 数据 

一 般 来 说 ， 元 数据 指 关 于 数据 的 数据 。 在 Hadoop 生态 系统 中 ， 元 数据 有 很 多 种 。 下 乓 

罗列 几 个 ， 如 下 所 述 。 

。 与 远 辑 数据 集 有 关 的 元 数据 
包括 以 下 信息 : 数据 集 的 位 置 (比如 HDFS 中 的 目录 或 者 HBase 中 表 的 名 称 )、 与 数据 
集 有 关 的 模式 '、 数 据 集 的 分 区 与 排序 特性 (如果 有 的 话 )， 以 及 适用 的 数据 集 格式 〈 比 
如 CSV、TSV、SequenceFile， 等 等 )。 此 类 元 数据 通常 存储 于 独立 的 元 数据 仓库 中 。 

。 与 HDFS 文件 有 关 的 元 数据 
包括 以 下 信息 : 该 类 文件 的 权限 与 属 主 ， 以 及 数据 节点 上 不 同 数据 块 的 位 置 。 此 类 信息 
通常 通过 Hadoop NameNode 进行 存储 和 管理 。 

。 与 HBase 表 相 关 的 元 数据 
包括 以 下 信息 : 表 的 名 称 、 相 关 名 称 空间 、 相 关 属 性 (如 MAX_FILESIZE、READONLY， 等 
等 )， 以 及 列 徐 的 名 称 。 此 类 信息 由 HBase 存储 和 管理 。 

。 与 数据 输入 和 转化 有 关 的 元 数据 
包括 以 下 信息 : 创建 指定 数据 集 的 特定 用 户 、 数 据 集 的 来 源 、 创 建 数据 集 花 费 的 时 间 ， 
以 及 存在 多 少 条 记录 ， 或 者 加 载 的 数据 大 小 是 多 少 。 

。 与 数据 集 统计 相关 的 元 数据 
包括 以 下 信息 : 数据 集中 行 的 数量 、 每 列 中 特定 值 的 数量 、 数 据 分 布 的 直方 图 以 及 最 大 
值 和 最 小 值 。 此 类 元 数据 用 于 不 同 的 工具 ， 这 些 工 具 能 够 利用 元 数据 优化 执行 计划 。 它 
们 也 能 供 数 据 分 析 师 使 用 ， 他 们 可 以 基于 元 数据 进行 快速 分 析 。 








先 












































注 1: 注意 ，Hadoop 为 Schema-On-Read。 引 入 模式 不 代表 失去 该 特性 ， 只 是 表明 这 是 对 数据 集中 数据 的 一 种 
解析 方式 。 同 一 份 数 据 可 以 拥有 多 份 模式 。 
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本 市 将 讨论 之 前 清单 中 的 第 一 点 : 与 逻辑 数据 集 有 关 的 元 数据 。 从 这 里 开始 ， 本 节 所 提 到 
的 元 数据 ， 指 的 均 是 这 一 种 元 数据 。 


1.4.2 ”为 什么 元 数据 至 关 重 要 

有 三 个 重要 的 理由 ， 让 我 们 不 得 不 在 意 元 数据 。 

。 元 数据 人 允许 用 户 通过 一 张 表 的 高 一 级 逻辑 抽象 ， 而 不 是 HDFS 中 文件 的 简单 集合 ， 或 者 
HBase 中 的 表 来 与 数据 交互 。 这 意味 着 用 户 不 必 关 心 如 何 数据 是 如 何 存储 的 ， 存 储 到 了 
什么 地 方 。 

。 元 数据 允许 用 户 提 供 数据 的 信息 (如 分 区 或 者 排序 特性 ) ， 而 后 通过 不 同 的 工具 (用 户 
或 者 其 他 人 写 入 的 ) 利用 这 些 信息 生成 或 者 查询 数据 。 

。 元 数据 人 允许 数据 管理 工具 链接 该 元 数据 , 而 且 人 允许 用 户 执行 数据 查找 (查找 可 用 的 数据 ， 

并 查找 如 何 使 用 该 数据 ) 与 数据 血缘 分 析 (追踪 一 个 给 定数 据 集 的 来 源 或 者 起 源 )。 


1.4.3 ”元 数据 的 存储 位 置 

Hadoop 生态 系统 中 第 一 个 开始 存储 、 管 理 并 使 用 元 数据 的 项 目 是 Apache Hive 项 目 。Hive 
将 元 数据 存储 在 一 个 名 为 Hive metastore 的 关系 型 数据 库 中 。 注 意 ，Hive 还 包涵 了 名 为 
Hive metastore service 的 服务 ， 它 与 Hive 元 数据 数据 库 相 交互 。 为 了 避免 弄 混 数据 库 和 进 
和 人 该 数据 库 的 Hive 服务 ， 我 们 将 前 者 称 作 Hive 元 数据 数据 库 (Hive metastore database ) ， 
将 后 者 称 作 Hive 元 数据 服务 (Hive metastore service)。 本 书 提 到 Hive metastore 时 ， 指 的 
是 包含 服务 与 数据 库 的 逻辑 性 集合 系统 。 


随 着 时 间 的 推进 ， 有 意 使 用 Hive metastore 中 元 数据 的 项 目 越 来 越 多 。 为 了 能 够 在 Hive 以 
外 使 用 Hive metastore， 有 一 个 名 为 HCatalog 的 项 目 启动 了 。 现 在 ，HCatalog 成 为 了 Hive 
的 一 部 分 。 很 重要 的 一 点 是 ，HCatalog 能 够 使 其 他 工具 (比如 Pig 和 MapReduce) 与 Hive 
metastore 整合 在 一 起 使 用 。 同 时 ，HCatalog 还 通过 WebHCat 服务 器 将 REST API 加 入 到 
Hive metastore， 打 开 了 访问 Hive metastore 的 通路 ， 拓 展 了 它 的 生态 系统 。 


用 户 可 以 把 HCatalog 当 作 访问 Hive metastore 的 跳板 ， 如 图 1-4 所 示 。 


现在 MapReduce、Pig 与 独立 的 应 用 程序 都 能 通过 相应 的 API， 很 好 地 与 Hive metastore 取 
得 直接 联系 。 但 是 HCatalog 更 便于 通过 WebHCat Rest API 访问 Hive metastore， 而 且 人 允许 
集群 管理 者 出 于 安全 性 的 考虑 对 Hive metastore 的 访问 加 锁 。 


注意 ， 在 使 用 HCatalog 和 Hive metastore 时 并 不 一 定 要 用 到 Hive。 仅 在 存储 和 访问 与 数据 
相关 的 元 数据 时 ，HCatalog 才 会 使 用 Hive 的 基础 部 分 。 

Hive metastore 可 以 在 三 种 模式 下 使 用 : 磐 入 式 metastore、 本 地 metastore 和 远程 metastore。 
尽管 无 法 详 述 所 有 的 模式 ， 但 是 我 们 建议 以 远程 metastore 模式 使 用 Hive metastore。 这 也 
是 在 Hive metastore 上 使 用 HCatalog 的 一 个 要 求 。 在 常用 的 数据 库 中 ，Hive metastore 可 选 
的 数据 库 有 MySQL、PostgreSQL、Derby 与 Oracle。MySQL 是 目前 为 止 行业 中 应 用 最 为 
广泛 的 数据 库 。 当 然 ， 可 以 运行 新 的 数据 库 实例 ， 为 Hive 创建 一 个 用 户 并 且 分 配合 适 的 
权限 ， 并 将 该 数据 库 当 作 自 己 的 metastore 来 使 用 。 如 果 公 司 中 已 经 有 一 个 可 以 使 用 的 关系 








































































































Hadoop 数 据 建 模 | 25 
图 灵 社 区 会 员 largelove(largelove@163.com) 专 享 尊重 版 权 





型 数据 库 实 例 ， 那 么 可 以 选择 将 该 数据 库 实 例 当 作 Hive metastore 的 数据 库 来 使 用 。 使 用 
者 在 已 有 的 数据 库 实 例 上 为 Hive 创建 一 个 新 用 户 并 分 配 权限 即 可 。 


Beeline 命 令 行 Hive 服 务 器 2 
Hive 命 令 行 Hive Service JVM 
四 

































图 1-4: HCatalog 可 以 作为 访问 Hive metastore 的 跳板 





应 该 重用 现存 的 数据 库 实例 ， 还 是 重新 创建 一 个 ， 取 决 于 数据 库 实例 的 使 用 模式 、 现 存 负 
载 ， 以 及 使 用 数据 库 实例 的 其 他 应 用 。 一 方面 ， 从 操作 角度 来 看 ， 不 应 该 为 每 个 新 应 用 
(这 种 情况 下 ，Hive metastore 处 理 Hadoop 生态 系统 中 的 元 数据 ) 都 创建 新 的 数据 库 实例 。 
但 是 另 一 方面 ， 最 好 不 要 让 Hadoop 的 基础 部 分 交 又 依赖 于 一 个 十 分 不 匹配 的 数据 库 实例 。 
其 他 考虑 因素 也 很 重要 。 比 如 ， 如 果 公 司 中 已 经 存在 一 个 可 用 性 极 佳 的 数据 库 集群 ， 而 且 
你 想 使 用 该 集群 获得 Hive metastore 数据 库 的 高 可 用 性 ， 那 么 为 Hive metastore 数据 库 使 用 
现存 的 HA 数据 库 集群 更 好 。 


1.4.4 “元 数据 管理 举例 

使 用 Hive 或 者 Inpala 时 ， 不 需要 采取 任何 特殊 的 操作 来 创建 或 者 检索 元 数据 。 这 些 系 
统 直 接 与 Hive metastore 进行 整合 ， 这 意味 着 CREATE TABLE 命令 就 能 创建 元 数据 ，ALTER 
TABLE 就 能 改变 元 数据 ， 表 的 查询 就 能 够 检索 存储 的 元 数据 。 

使 用 Pig 时 ， 整 合 HCatalog 与 Pig 可 以 存储 和 检索 元 数据 。 如 果 使 用 Hadoop 中 的 项 目 接 
口 (如 MapReduce、Spark 或 者 Cascading) 来 查询 数据 ， 可 以 使 用 HCatalog 的 Java API 
来 存储 和 检索 元 数据 。HCatalog 同样 含有 一 个 CLI 和 一 个 REST API， 可 以 用 来 存储 、 更 
新 和 检索 元 数据 。 




























































































1.4.5 ”Hive metastore 与 HCatalog 的 局 限 性 
Hive metastore 和 HCatalog 在 应 用 上 存在 一 些 缺 点 ， 其 中 一 部 分 结 如 下 。 
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。 高 可 用 性 相关 的 问题 
想 为 Hive metastore 提供 HA， 就 要 为 metastore 数据 库 与 metastore 服务 提供 HA。 
metastore 数据 库 是 每 天 结束 时 的 数据 库 ， 而 且 已 经 解决 了 为 数据 库 提 供 HA 的 问 
题 。 采 用 任何 一 种 HA 数据 库 集 群 办 法 都 可 以 为 Hive metastore 数据 库 提 供 HA。 只 
要 metastore 服务 持续 进行 ， 就 能 不 断 支 持 集群 中 一 个 或 多 个 节点 上 的 metastore 运行 。 
但 是 ， 在 本 文 写 作 的 时 候 ， 这 种 做 法 会 带 来 同步 的 问题 ， 这 个 问题 关 平 数据 定义 语言 
(Data Definition Language, DDL) 表述 以 及 同一 时 间 运 行 的 其 他 查询 *"。Hive 社区 正在 努 
力 解决 这 些 问 题 。 

。 固定 的 元 数据 模式 
Hadoop 中 的 数据 有 多 种 存储 类 型 ， 对 于 这 一 点 ，Schema-on-Read 概念 起 到 了 重要 作用 。 
然而 ， 因 为 关系 型 后 端 能 够 支持 Hive metastore， 所 以 Hive metastore 中 元 数据 的 模式 是 

国定 的 。 现 在 ， 因 为 模式 有 很 多 种 ， 所 以 实情 也 没有 听 上 去 那么 糟糕 。 各 种 模式 都 能 存 

储 来 自 列 的 所 有 信息 ， 以 及 区 分 数据 特性 的 信息 类 型 。 有 一 种 比较 罕见 的 情形 : 你 需要 
存储 并 检索 数据 元 信息 ， 而 元 信息 又 不 能 存储 在 metastore 模式 中 。 这 种 情况 下 可 能 需 
要 为 元 数据 选择 别 的 系统 。 而 且 ，metastore 旨 在 为 数据 集 提供 一 张 抽象 表格 。 如 果 把 
数据 放 到 一 张 表 中 没有 什么 意义 (比如 图 像 或 者 视频 数据 )， 而 且 仍 然 需 要 存储 和 检索 
数据 ， 那 么 Hive metastore 可 能 不 是 合适 的 工具 。 

。 男 一 个 存在 变数 的 环节 
虽然 这 并 不 一 定 意味 着 限制 ， 但 是 还 是 需要 记 住 ，Hive metastore 给 你 的 基础 设施 带 来 
了 变数 。 因 此 ， 在 使 用 中 你 需要 保证 metastore 服务 的 正常 运行 ， 而 且 要 像 对 待 其 他 
Hadoop 基础 部 分 一 样 ， 保 证 metastore 数据 的 安全 。 


1.4.6 ”其 他 存储 元 数据 的 方式 

使 用 Hive metastore 与 HCatalog 是 Hadoop 生态 系统 中 存储 与 管理 表 元 数据 最 常见 的 方法 。 
但 是 ， 其 他 情况 下 (存在 先前 提 到 的 那些 限制 )， 用 户 更 喜欢 在 不 使 用 Hive metastore 和 
HCatalog 的 情况 下 存储 元 数据 。 本 节 将 讨论 这 些 方法 。 

1. 将 元 数据 散 入 到 文件 路 径 和 文件 名 中 

在 1.2 市 中 ,你 可 能 已 经 注意 到 了 ， 我 们 建议 将 一 些 元 数据 租 入 数据 集 位 置 以 保障 组 织 性 
和 一 致 性 。 比 如 ， 在 一 个 分 区 数据 集中 ， 目 录 结 构 如 下 : 

< 数据 集 名 称 >/< 分 区 列 列 名 = 分 区 列 值 >/{ 文件 名 }。 


这 种 结构 已 经 包含 了 数据 集 的 名 称 、 分 区 列 的 名 称 ， 以 及 数据 集 分 区 后 分 区 列 的 各 种 值 。 
处 理 数 据 时 ， 多 种 工具 与 应 用 都 可 以 使 用 文件 名 称 与 位 置 中 的 元 数据 。 比 如 ， 想 要 列 出 名 
为 medication_orders 的 数据 集 的 所 有 分 区 ， 只 要 对 HDFS 目录 /data/medication_orders 调用 
一 个 ls 操作 即 可 。 








































































































注 2: 例子 可 参见 Hive-4759 (https://issues.apache.org/jira/browse/HIVE-4759)。 
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2. 将 元 数据 存储 在 HDFS 上 

你 可 能 会 决定 将 元 数据 存储 于 HDFS 中 。 存 储 该 类 元 数据 的 一 种 做 法 是 创建 隐藏 的 目录 ， 
如 .metadata， 它 隐藏 在 包含 HDFS 数据 的 目录 中 。 你 也 可 能 决定 将 数据 模式 存储 于 Avro 
模式 文件 中 。 当 不 能 通过 HCatalog 将 元 数据 存储 于 Hive metastore 时 ， 这 一 做 法 会 非常 
实用 。Hive metastore 对 于 能 够 存储 的 数据 进行 了 模式 上 的 规定 ，HCatalog 也 是 如 此 。 如 
果 你 想 要 存储 的 元 数据 不 在 范围 之 内 ， 那 么 一 个 合理 的 选择 是 管理 自己 的 元 数据 。 比 如 ， 
HDFS 中 的 目录 结构 可 能 如 下 : 

/data/event_log 


/data/event_log/file1.avro 
/data/event_log/.metadata 


值得 注意 的 是 ， 如 果 使 用 这 条 路 径 ， 那 么 你 将 创建 、 维 护 和 管理 自己 的 元 数据 。 不 过 ， 你 
也 可 以 选择 使 用 类 似 于 Kite SDK 的 工具 来 存储 元 数据 。 而 且 ，Kite 支持 多 个 元 数据 提供 
者 。 这 表示 在 使 用 该 工具 在 HDFS 中 存储 元 数据 (就 像 刚 刚 描述 的 ) 的 同时 ， 你 也 可 以 
使 用 该 工具 在 HCatalog (以 及 Hive metastore) 中 存储 元 数据 。 你 可 以 轻松 地 将 一 种 来 源 
(HCatalog) 的 元 数据 转换 为 另 一 种 来 产 (如 HDFS 中 的 .metadata 目录 ) 的 元 数据 。 


全 gr 和 


数据 模型 的 构建 在 任何 一 种 系统 中 都 是 一 个 很 有 挑战 的 任务 。Hadoop 生态 系统 提供 了 诸 
多 选择 ， 所 以 挑战 尤为 明显 。 之 所 以 会 有 这 么 多 选择 ， 一 个 原因 是 Hadoop 的 灵活 性 在 不 
断 增 加 。 尽 管 Hadoop 仍然 属于 Schema-on-Read， 但 选择 正确 的 模型 存储 数据 可 以 带 来 很 
多 好 处 ， 比 如 减少 存储 痕迹 、 提 高 处 理 时 间 、 简 化 授权 与 许可 、 使 元 数据 管理 更 加 便捷 。 


正如 本 章 所 讨论 的 ， 你 可 以 自己 选择 存储 方式 ， 其 中 HDFS 与 HBase 是 最 常用 的 。 如 果 使 
用 HDFS， 那 么 用 来 存储 数据 的 文件 类 型 有 很 多 ， 其 中 Avro 是 非常 常用 的 面向 行 型 格式 ， 
ORC 与 Parquet 是 常用 的 面向 列 型 格式 。 使 用 HDFS 数据 时 ， 还 应 该 选择 合适 的 压缩 编 解 
码 ，Snappy 是 最 常用 的 选择 之 一 。 如 果 你 在 HBase 中 存储 了 数据 ， 从 建 模 角度 来 看 行 键 
的 选择 可 能 是 最 重要 的 设计 因素 。 

下 一 个 重要 的 模型 选择 关 平 元 数据 的 管理 。 元 数据 可 以 指 很 多 类 型 的 数据 ， 本 章 将 重点 放 
在 了 模式 相关 的 元 数据 ， 以 及 数据 的 字段 类 型 上 。Hive metastore 已 经 成 为 存储 和 管理 元 数 
据 的 默认 标准 ， 但 是 你 也 可 以 自己 管理 元 数据 。 


你 需要 选择 正确 的 数据 模型 ， 这 是 应 用 中 最 重要 的 选择 之 一 。 我 们 希望 你 能 花 些 时 间 和 精 
力 ， 争 取 一 次 搞定 。 


















































注 3: Kite (http://kitesdk.org/) 是 一 个 工具 集合 ,包括 一 系列 软件 库 、 工 具 、 示 例 及 文档 , 关注 在 Hadoop 生 
态 系 统 之 上 更 为 便捷 地 构建 系统 。 它 能 够 让 使 用 者 像 本 节 提 及 的 那样 ,在 HDFS 上 创建 和 管理 元 数据 。 
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第 2 章 


Hadoop 数 据 移动 





我 们 已 经 围绕 Hadoop 存储 与 建 模 讨论 了 很 多 需要 考虑 的 因素 。 接 下 来 ， 我 们 将 讨论 一 个 
同样 重要 的 话题 ， 即 外 部 系统 与 Hadoop 之 间 的 数据 传递 。 本 章 内 容 包 括 从 外 部 系统 (如 
关系 型 数据 库 或 者 日 志 ) 采集 数据 导入 Hadoop， 以 及 从 Hadoop 中 提取 数据 导入 外 部 系 
统 。 本 章 将 用 大 量 篇 幅 讲解 把 数据 导入 Hadoop 时 所 需 考 虑 的 因素 ， 以 及 最 佳 导入 方法 。 
另外 ， 我 们 还 会 次 入 挖掘 数据 导入 的 特定 工具 ， 如 Flume 与 Sqoop。 最 后 ， 我 们 会 讨论 将 
数据 导出 Hadoop 所 需 考虑 的 因素 ， 并 提出 相关 建议 。 


2.1 数据 采集 考量 


第 1 章 谈 到 了 Hadoop 中 数据 存储 的 各 种 决策 。 本 章 将 讨论 同样 重要 的 架构 决策 一 一 如 
何 将 数据 导入 Hadoop 集群 。 虽 然 Hadoop 提供 了 文件 系统 客户 端 ， 便 于 在 Hadoop 中 和 
Hadoop 外 复制 文件 ， 但 是 大 多 数 在 Hadoop 上 实施 的 应 用 都 需要 从 不 同 来 源 导入 完全 不 同 
的 数据 类 型 ， 而 且 不 同 的 导入 频率 也 提出 了 不 同 的 要 求 。Hadoop 常用 的 数据 来 源 包括 以 
下 风 个 s 

。 传统 数据 管理 系统 ， 如 关系 型 数据 库 与 主机 。 

。 日 志 、 机 器 生成 的 数据 ， 以 及 其 他 类 型 的 事件 数据 。 

。 从 现 有 的 企业 数据 存储 系统 中 输入 的 文件 。 


将 数据 从 不 同 的 系统 输入 Hadoop 时 需要 考虑 很 多 因素 。 企 业 导 入 到 Hadoop 的 数据 越 多 ， 
这 些 决策 就 越 重要 。 本 章 将 讨论 的 考虑 因素 如 下 。 
。 数据 采集 的 时 效 性 与 可 访问 性 

需要 采集 的 数据 在 采集 频率 方面 有 哪些 要 求 ? 下游 的 处 理 要 求 数据 多 长 时 间 准 备 完毕 ? 
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增 量 更 新 

如 何 添加 新 数据 ? 需要 将 新 数据 添加 到 现 有 数据 中 吗 ? 需要 重 写 现 有 数据 吗 ? 

数据 访问 和 处 理 

数据 会 用 于 处 理 过 程 吗 ? 如 果 会 ， 数 据 会 用 于 批 处 理 任 务 吗 ? 需要 的 数据 是 不 是 随机 获 
取 的 ? 

数据 的 来 源 系 统 及 数据 结构 

数据 来 自 哪里 ?是 来 自 关系 型 数据 库 还 是 来 自 日 志 ? 数据 是 结构 化 的 、 半 结构 化 的 还 是 
非 结 构 化 的 ? 
























































数据 分 区 及 数据 分 片 

数据 采集 后 应 该 如 何 分 区 ? 需要 将 数据 导入 到 多 个 目标 系统 (如 HDFS 与 HBase) 吗 ? 
存储 格式 

数据 存储 的 格式 是 哪 一 种 ? 

数据 变换 


需要 变换 尚未 落地 的 数据 吗 ? 


我 们 首先 来 看 一 下 第 一 个 考虑 因素 : 数据 采集 的 时 效 性 要 求 。 


2.1.1 数据 采集 的 时 效 性 

提 到 数据 采集 的 时 效 性 ， 我 们 指 的 是 可 进行 数据 采集 的 时 间 与 Hadoop 中 工具 可 访问 数据 
的 时 间 之 间 的 间隔 。 采 集 架 构 的 时 间 分 类 会 对 存储 媒介 和 采集 方法 造成 很 大 的 影响 。 为 了 
集中 探讨 话题 ， 本 章 不 会 涉及 流 处 理 或 者 分 析 ， 我 们 会 把 这 部 分 内 容 单独 放 到 第 7 章 中 讲 
述 。 本 章 仅 讨 论 Hadoop 中 数据 存储 的 时 间 与 数据 可 用 于 处 理 的 时 间 。 

一 般 来 说 ， 在 设计 应 用 的 采集 构架 之 前 建议 使 用 以 下 分 类 中 的 一 种 。 
























































大 型 批 处 理 

通常 指 15 分 钟 到 数 小 时 的 任务 ， 有 时 可 能 指 时 间 跨 度 达 到 一 天 的 任务 。 
小 型 批 处 理 

通常 指 大 约 每 2 分 钟 发 送 一 次 的 任务 ， 但 是 总 的 来 说 不 会 超过 15 分 钟 。 
近 实 时 决策 支持 

虽 接 受信 息 后 “立即 作出 反应 ”， 并 在 2 秒 至 2 分 钟 内 发 送 数 据 。 

近 实 时 事件 处 理 

虽 在 2 秒 之 内 处 理 任务 ， 速 度 可 达到 100 毫秒 。 

实时 


这 个 词 的 用 途 非常 广泛 ， 而 且 有 很 多 定义 。 实时 ”在 这 里 指 不 超过 100 毫秒 。 


需要 注意 的 是 ， 随 着 任务 的 实现 时 间 达 到 实时 ， 实 现 的 复杂 性 和 成 本 也 会 大 大 增加 。 从 批 
量 处 理 出 发 〈 比 如 使 用 简单 文件 传输 ) 通常 是 个 不 错 的 选择 。 选 择 更 加 复杂 的 采集 方法 之 
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前 要 先 使 用 简单 的 方法 。 

HDFS 对 时 效 性 的 要 求 比较 宽松 ， 所 以 可 能 更 加 适合 成 为 主要 存储 位 置 。 而 一 个 简单 文件 传 
输 或 者 Sqoop 任务 则 适合 作为 采集 数据 的 工具 。 我 们 将 在 后 面 的 内 容 中 详细 讨论 这 些 选 择 。 
这 些 方法 直接 提供 的 实现 和 验证 检查 比较 简单 ， 所 以 非常 适合 批量 采集 数据 。 比 如 ， 执 行 
hadoop fs -put 命令 将 复制 一 个 文件 ， 并 进行 全 面 的 校 验 ， 以 确定 正确 地 复制 了 数据 。 


使 用 hadoop fs -put 命令 与 Sqoop 时 ， 你 需要 明白 一 点 : HDFS 上 的 数据 存储 格式 可 能 
并 不 适合 数据 的 长 期 存储 与 处 理 。 因 此 ， 在 使 用 这 些 工具 的 时 候 ， 可 能 需要 通过 额外 的 
批 处 理 操作 ， 以 将 数据 存储 为 需要 的 格式 。 比 如 ， 将 Gzip 文件 加 载 到 HDFS 中 就 需要 这 
种 额外 的 批 处 理 操作 。 尽 管 Gzip 文件 很 容易 存储 在 HDFS 中 ， 并 通过 MapReduce 或 其 他 
Hadoop 处 理 框 架 进 行 处 理 ， 但 正如 我 们 在 前 一 章 中 所 谈 到 的 ，Gzip 文件 是 不 可 分 片 式 的 。 
这 将 对 文件 处 理 的 有 效 性 造成 很 大 的 影响 ， 尤 其 是 当 文件 变 得 更 大 时 。 这 种 情况 下 ， 一 个 
很 好 的 解决 方法 是 采用 容器 格式 将 文件 存储 至 Hadoop 中 。 该 格式 支持 可 分 片 式 压缩 ， 比 
如 SequenceFile 或 Avro。 


当 用 户 的 需要 从 简单 的 批 处 理 转 向 更 高 频率 的 更 新 时 ， 就 应 该 考虑 Flume 或 Kafka 之 类 
的 工具 了 。 在 这 里 ， 传 输 时 间 要 求 不 超过 2 分 钟 ， 所 以 Sqoop 与 文件 转换 器 不 适用 。 而 
且 ， 因 为 要 求 时 间 不 超过 2 分钟， 所 以 存储 层 可 能 需要 变 为 HBase 或 Soltr， 这 样 插入 与 读 
取 操 作 会 获得 更 细 的 粒度 。 当 要 求 提高 到 实时 水 平时 ， 我 们 首先 需要 考虑 内 存 ， 然 后 是 
永久 性 存储 。 全 世界 所 有 的 平行 化 处 理 都 不 会 有 助 于 将 反应 要 求 控制 在 500 毫秒 以 内 ， 只 
要 硬盘 驱动 器 保持 处 理 操作 的 状态 。 基 于 这 一 点 ， 我 们 开始 进入 流 处 理 领 域 ， 采用 Storm 
或 Spark Streaming 之 类 的 工具 。 这 里 要 强调 的 是 ， 这 些 工具 应 该 真正 用 于 数据 处 理 ， 而 不 
是 像 Flume 或 Sqoop 那样 用 于 数据 采集 。 同 样 ， 我 们 也 会 更 多 地 讨论 如 何 采用 类 似 第 7 章 中 
Storm 和 Spark Streaming 这 样 的 工具 处 理 接近 实时 的 数据 流 。 本 章 将 深入 讨论 Fume 与 Kafka。 


2.1.2 增 量 更 新 


这 里 的 重点 是 ， 新 的 数据 是 要 添加 到 已 有 数据 集中 ， 还 是 要 修改 已 有 数据 集 。 如 果 仅 要 求 
添加 数据 (比如 说 ， 将 用 户 活动 添加 到 网 络 日 志 )， 那 么 HDFS 对 于 大 部 分 实现 都 很 适用 。 
HDFS 能 够 并 行 化 多 个 驱动 器 的 VO 操作 ， 所 以 读 写 性 能 很 高 。HDFS 的 缺点 是 无 法 添加 
或 者 随机 写 入 创建 后 的 文件 。 在 要 求 “ 仪 添加 ”的 情况 下 ， 这 不 是 什么 问题 。 这 种 情况 下 
可 以 通过 增加 新 的 文件 或 者 分 区 来 “添加 ”数据 ， 使 得 MapReduce 和 其 他 处 理 任务 能 够 访 
问 新 数据 和 旧 数 据 。 









































































































































注意 ， 关 于 分 区 和 HDFS 中 的 数据 存储 ， 第 1 章 进 行 了 详细 的 讨论 。 





非常 值得 注意 的 是 ，HDSF 很 适合 用 于 将 大 文件 添加 到 目录 中 。 如 果 要 求 添 加 处 理 在 2 分 钟 
内 完成 ， 而 且 处 理 过 程 产生 了 很 多 小 文件 ， 那 么 需要 采用 一 个 周期 性 处 理 来 合并 小 文件 ， 
这 样 才能 保证 大 文件 的 优势 。 选 择 大 文件 的 理由 有 很 多 ， 其 中 很 重要 的 一 点 是 从 磁盘 中 读 
取 数 据 的 方式 。 相 比 于 执行 多 次 查询 以 从 多 个 文件 读 取 相 同 信息 ， 采 用 长 期 、 连 续 扫描 的 
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方式 读 取 单 个 文件 的 速度 更 快 。 


本 章 随后 会 简单 讨论 一 下 管理 小 文件 的 方法 。 但 是 本 书 不 会 全 面 讨论 这 个 问 
题 。 想 要 获知 管理 小 文件 技术 的 详细 内 容 ， 请 参阅 《Hadoop 权威 指南 》 或 
《Hadoop 硬 实战 》。 
































如 果 还 需要 修改 现 有 数据 ， 那 么 就 要 进行 额外 的 工作 ， 将 数据 存储 至 HDFS。HDFS 仅 能 
读 取 数据 ， 而 不 能 像 关 系 型 数据 库 一 样 原 地 更 新 。 因 此 ， 我 们 要 首先 要 写 入 一 个 delta 文 
件 ， 里 面包 含 要 对 现 有 数据 做 出 的 修改 。 接 下 来 要 进行 一 个 合并 任务 (compaction job)， 
处 理 这 些 修 改 。 合 并 任务 通过 主键 对 数据 分 类 。 如 果 行 被 发 现 了 两 次 ， 那 么 就 保留 来 自 新 
delta 文件 的 数据 ， 而 不 保留 来 自 旧 文 件 的 数据 。 合 并 处 理 的 结果 会 写 入 磁盘 。 当 处 理 完成 
时 ， 合 并 后 的 数据 会 取代 未 合并 的 旧 数 据 。 广 意 ， 这 里 说 的 合并 任务 是 一 种 批 处 理 操 作 ， 
比如 执行 作为 任务 流 一 部 分 的 MapReduce 任务 。 根 据 数据 的 大 小 ， 处 理 可 能 需要 几 分 钟 。 
因此 ， 这 种 处 理 只 适合 时 效 性 间隔 为 数 分 钟 的 数据 。 


表 2-1 为 一 个 执行 合并 任务 的 例子 。 注 意 ， 第 一 列 为 数据 的 主键 。 
表 2-1: 合并 


原始 数据 新 增 数据 结果 数据 
A, Blue, 5 B, Yellow,3 |A,Blue,5 















































B, Red,6 D, Gray, 0 B, Yellow, 3 
C, Green, 2 C, Green, 2 
D, Gray, 0 








采用 不 同 的 方法 执行 合并 操作 时 ， 人 性 能 会 不 同 。 第 4 章 将 讲解 执行 合并 操作 的 例子 。 

另外 一 个 选择 是 不 考虑 HDFS 与 文件 合并 ， 转 而 使 用 HBase。 这 种 情况 下 HBase 能 够 执行 
合并 操作 ， 并 且 在 架构 上 支持 增 量 。HBase 中 put 命令 完成 时 ， 该 构架 即 可 生效 ， 而 且 通 
常 在 毫秒 之 内 发 生 。 

需要 注意 的 是 ， 使 用 HBase 需要 其 他 的 管理 与 应 用 开发 知识 。 与 HDFS 相 比 ，HBase 的 访 
问 模式 大 不 相同 ， 比 如 扫描 速度 。HBase 的 扫描 速度 大 约 是 HDFS 的 1/10~1/8。 另 一 个 不 
同 点 是 随机 访问 。HBase 访问 单个 记录 的 时 间 为 毫秒 级 别 ， 而 HDFS 不 支持 随机 访问 ， 只 
支持 昂贵 、 复 杂 的 文件 查询 。 


2.1.3 访问 模式 


这 里 要 求 深入 理解 信息 传输 的 潜在 要 求 。 一 旦 存储 至 Hadoop 中 ， 数 据 将 如 何 使 用 ? 比如， 
如 果 需 要 获得 随机 行 访问 ，HDFS 可 能 不 是 最 好 的 选择 ， 这 种 情况 更 适合 选用 HBase。 相 
反 ， 如 果 要 求 扫描 与 数据 转化 ，HBase 就 不 那么 合适 了 。 这 里 需要 考虑 的 因素 很 多 ， 我 们 
提出 一 个 基本 的 指导 原则 ;如果 要 求 操作 简单 、 压 缩 性 能 最 优 、 扫 描 速 度 最 快 ， 则 默认 先 
择 HDFS。 另 外 ， 新 版 本 的 HDFS (Hadoop 2.3.0 以 及 更 高 版 本 ) 支持 将 数据 缓存 至 内 存 
中 。 所 以 ， 工 具 能 够 直接 从 内 存 中 读 取 数据 ， 然 后 将 文件 加 载 到 缓 丰 中。 该 作用 使 Hadoop 
成 为 了 支持 大 批量 并 行 处 理 的 内 存 数据 库 ， 能 够 被 Hadoop 生态 系统 中 的 工具 访问 。 当 主 
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要 需求 是 随机 访问 时 ， 应 该 默认 选择 HBase， 有 检索 处 理 的 需求 时 ， 可 以 考虑 选择 Solr。 
更 多 内 容 详 见 表 2-2， 其 中 包括 这 些 选择 的 常见 访问 模式 。 
表 2-2: Hadoop 存 储 类 型 的 访问 方式 















































































































































IE 用 途 存储 设备 

MapReduce | 大 型 批 处 理 推荐 使 用 HDFS， 也 可 使 用 HBase ( 非 首 选 ) 

Hive 类 SQL 接口 的 批 处 理 推荐 使 用 HDFS， 也 可 使 用 HBase ( 非 首选 ) 

Pig 采用 数据 流 语言 的 批 处 理 推荐 使 用 HDFS， 也 可 使 用 HBase ( 非 首 选 ) 

Spark 快速 交互 式 处 理 推荐 使 用 HDFS， 也 可 使 用 HBase ( 非 首 选 ) 

Giraph 到 的 批 处 理 推荐 使 用 HDFS， 也 可 使 用 HBase ( 非 首选 ) 

Impala MPP 架构 上 的 SQL 引 警 大 多 数 情 况 下 应 选择 HDFS。 但 是 在 某 些 情况 下 ， 即 使 扫 
描 速 度 降低 ， 也 应 当 采 用 HBase。 比 如 ， 要 对 更 新 的 数据 
近 实 时 访问 ， 通 过 主键 快速 访问 记录 

HBase API “| 对 记录 级 别 的 数据 原子 性 地 执 | HBase 

行 put、get 与 delete 操作 








2.1.4 数据 源 系统 及 数据 结构 
从 文件 系统 中 采集 数据 时 ， 应 该 考虑 以 下 内 容 。 


1. 数据 源 系统 设备 的 读 取 速 率 

在 所 有 处 理 流水 线 中 ,磁盘 IO 通常 都 是 主要 瓶颈 。 这 一 点 可 能 并 不 明显 ， 但 是 优化 采 
集 流程 时 通常 要 看 一 下 检索 数据 的 系统 。 一 般 来 说 ，Hadoop 的 读 取 速度 在 20 MB/s 到 
100 MB/s 之 间 ， 而 且 主 板 或 者 控制 器 从 系统 所 有 的 磁盘 中 读 取 数据 时 有 一 定 的 限制 。 
为 了 使 读 取 速 度 达到 最 高 ， 需 要 确保 尽量 充分 利用 系统 中 的 磁盘 。 某 些 网 络 附加 存储 
(Network Attached Storage，NAS) 系统 会 通过 额外 增加 挂 载 点 来 加 大 吞吐 量 。 同 样 要 注意 
的 是 ， 一 个 单一 的 读 取 线 程 不 会 提升 驱动 器 或 设备 的 读 取 速 度 。 根 据 我 们 的 经 验 ， 一 个 典 
型 的 驱动 器 通常 要 使 用 三 线程 才能 使 吞吐 量 达 到 最 大 。 但 是 这 个 数字 会 随 具 体 情况 的 不 同 
而 有 所 改变 。 


2. 原始 文件 格式 

数据 可 以 为 任何 一 种 格式 : 带 分 隔 符 文 本 、XML、JSON、Avro、 定 长 文件 、 变 长 文件 、 
Copybook， 等 等 。Hadoop 能 够 接受 任意 一 种 文件 格式 ， 但 是 并 不 是 所 有 格式 都 适合 特定 
的 使 用 案例 。 举 个 例子 ， 想 想 CSV 文件 。 这 是 一 种 非常 常见 的 格式 ， 而 且 这 种 格式 的 文 
件 通常 很 容易 导入 一 张 Hive 表 ， 进 而 可 以 立刻 访问 和 处 理 数据 。 但 是 ， 很 多 进行 CSV 文 
件 底层 存储 格式 转换 的 任务 能 够 〈 通 过 格式 转换 ) 提供 更 优化 的 数据 处 理 。 比 如 ， 使 用 
Parquet 作为 存储 格式 进行 数据 分 析 可 以 提供 更 有 效 的 处 理 ， 同 时 也 能 减 小 文件 的 存储 空间 。 


另外 需要 萎 虑 的 是 ，Hadoop 生态 系统 中 的 这 些 工具 并 不 能 支持 所 有 的 文件 格式 ， 比 如 变 
长 文件 。 某 些 平面 文件 (flat file) 的 列 数 是 固定 的 。 变 长 文件 与 之 类 似 。 定 长 文件 与 变 长 
文件 的 差异 在 于 ， 后 者 最 左 侧 的 一 列 决定 后 续 文 件 读 取 的 规则 。 比 如 ， 最 开始 的 两 列 是 8 
字 节 的 ID， 随 后 是 一 个 3 字 市 的 类 型 字段 。ID 只 是 一 个 全 局 标识 符 ， 读 取 数 据 的 方式 与 
定 长 文件 相似 。 但 是 ， 类 型 字段 设 定 了 该 记录 其 余 内 容 的 读 取 规 则 。 如 果 类 型 字段 的 值 为 



































































































































Hadoop 数 据 移动 | 33 
图 灵 社 区 会 员 largelove(largelove@163.com) 专 享 尊重 版 权 





car， 那 么 记录 可 能 包含 最 大 速度 、 里 程 、 颜 色 之 类 的 列 ， 如果 值 为 pet， 那 么 记录 中 的 列 
可 能 为 大 小 、 品 种 ， 等 等 。 不 同 的 列 长 度 不 同 ， 因 此 称 作 “可 变 长 度 "。 理 解 了 以 上 内 容 ， 
我 们 就 能 明白 变 长 文件 可 能 不 适合 Hive， 但 是 仍然 能 以 Hadoop 中 的 处 理 框架 进行 有 效 处 
理 ， 这 样 的 处 理 框架 包括 MapReduce 的 Java 任务 、Crunch、Pig 和 Spark。 


3. 压缩 格式 

在 原始 文件 系统 对 数据 进行 压缩 的 做 法 有 优点 也 有 缺点 。 其 优点 在 于 ， 通 过 网 络 传输 压缩 
文件 较为 节省 TO 和 网 络 宽带 。 甚 缺点 在 于 大 多 数 适 用 于 Hadoop 之 外 的 压缩 编码 器 都 不 
支持 分 片 (如 Gzip)。 不 过 ， 在 Hadoop 中 使 用 可 分 片 的 容器 格式 ， 可 以 使 这 些 编码 支持 分 
片 。 正 如 第 1 章 提 到 的 ， 这 些 容 器 格式 包括 SequenceFile、ParquetFile 和 AvroFile。 通 常 这 
种 做 法 首先 会 将 压缩 文件 复制 到 Hadoop 中 ， 后 续 处 理 时 再 对 文件 进行 转换 操作 。 转 换 操 
作 也 可 以 在 数据 输入 Hadoop 时 进行 ， 但 使 用 Hadoop 集群 的 分 布 式 处 理 能 力 转换 文件 ， 比 
仅仅 使 用 数据 传输 到 集群 中 时 涉及 的 边缘 节点 更 好 。 




































































第 1 章 讨论 了 HDFS 中 数据 压缩 需要 考虑 的 因素 。 本 书后 面 的 内 容 将 通过 案 
例 ， 看 一 下 数据 采集 与 后 续 处 理 的 具体 实例 。 








4. 关系 型 数据 库 管 理 系统 

Hadoop 应 用 通常 会 整合 来 自 不 同 RDBMS 厂商 (如 Oracle、Netezza、Greenplum、YVertica、 
Teradata、Microsoft 等 ) 的 数据 。 这 里 经 常 选 择 的 工具 是 Apache Sqoop。Sqoop 功能 丰富 ， 
支持 许多 选项 。 相 比 Hadoop 生态 系统 中 其 他 项 目 ，Sqoop 使 用 起 来 更 为 简单 便捷 。 这 些 
选项 能 控制 从 RDBMS 中 检索 哪些 数据 ， 怎 样 检索 数据 ， 使 用 哪 一 个 连接 器 ， 使 用 多 少 个 
Map 任务 ， 采 用 怎样 的 分 片 模式 ， 以 及 最 终 的 文件 格式 。 


Sqoop 进行 的 是 批 处 理 操作 。 如 果 批 处 理 操作 无 法 满足 数据 加 载 到 集群 中 的 时 效 性 要 求 ， 
那么 就 需要 采用 其 他 办 法 。 在 某 些 情况 下 ， 你 可 以 选择 分 片 采 集 数据 ， 以 一 条 流水 线 将 数 
据 加 载 到 RDBMS 中 ， 以 另 一 条 流水 线 将 数据 加 载 到 HDFS 中 。Flume、Kafka 之 类 的 工具 
都 能 进行 这 种 操作 ， 但 是 实施 起 来 很 复杂 ， 要 求 在 应 用 层 编码 。 


注意 ， 在 Sqoop 架构 下 ， 要 与 RDBMS 连接 的 不 只 有 边缘 节点 ， 还 有 数据 节点 (DataNode)。 
有 些 网 络 配置 不 允许 出 现 这 种 情况 ， 也 不 可 能 选择 Sqgoop， 比 如 ， 设 备 与 防火 墙 之 间 存 
在 网 络 瓶 颈 问 题 。 这 些 情 况 下 ，Sqoop 的 替代 方案 则 是 生成 RDBMS 的 转 储 文件 ， 然 后 
将 文件 输入 HDFS 中 。 大 多 数 关系 型 数据 库 都 能 创建 一 个 带 有 分 隔 符 的 转 储 文件 ， 而 后 
通过 一 个 简单 的 文件 传输 将 转 储 文件 输入 Hadoop 中 。 图 2-1 为 Sqoop 与 RDBMS 转 储 
文件 的 差异 。 
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图 2-1: Sqoop 与 RDBMS 转 储 文件 的 比较 


本 章 后 面 将 详细 介绍 更 多 考虑 因素 ， 并 推荐 使 用 Sqoop 的 最 佳 方法 。 

5. 流 式 数据 

流 输入 数据 包括 Twitter 订阅 、Java 消息 服务 (Java Message Service，JMS) 队列 ， 以 及 网 
络 应 用 服务 器 发 送 的 事件 。 在 这 种 情况 下 ， 我 们 强烈 推荐 使 用 Flume 或 Kafka。 这 两 个 系 
统 都 能 提供 同样 水 平 的 保证 ， 而 且 功 能 相似 ， 但 它们 之 间 存 在 一 些 重要 的 差异 。 随 后 我 们 
会 在 本 章 深 入 了 解 Flume 与 Kafka。 

6. 日 志文 件 

文件 系统 与 流 输入 之 间 的 部 分 为 日 志 。 我 们 将 单独 讨论 日 志 的 相关 内 容 。 反 模式 指 写 人 日 
志 时 从 磁盘 中 读 取 日 志 ， 因 为 完成 实施 却 不 丢失 数据 是 不 可 能 的 。 采 集 日 志 的 正确 方法 是 
直接 将 日 志 输 入 工具 中 ， 如 Flume 或 Kafka， 而 不 是 直接 输入 Hadoop。 
































2.1.5 变换 
一 般 来 说 ， 变 换 (transformation) 指 修改 输入 数据 ， 将 数据 分 区 或 者 分 桶 ， 或 者 将 数据 发 
送 到 多 个 存储 设备 或 位 置 。 下 面 是 一 些 简 单 的 例子 。 
。 变换 

将 XML 或 JSON 转换 为 带 分 隔 符 的 数据 。 
。 分 区 

如 果 输 入 的 是 股票 交易 数据 ， 那 么 要 求 按照 股票 分 
。 分 上 上 

将 数据 加 载 到 HDFS 与 HBase 中 ， 以 获得 不 同 的 访问 模式 。 
转换 数据 的 方式 要 根据 时 效 性 的 要 求 进行 选择 。 如 果 数 据 的 时 效 性 为 批 处 理 操作 ， 那 么 
更 好 的 方法 可 能 是 先进 行文 件 传 输 ， 再 进行 批 转换 。 注 意 ， 这 类 转换 可 以 通过 Hive、Pig 
或 Java MapReduce 之 类 的 工具 ， 或 者 Spark 之 类 的 新 型 工具 完成 。 批 转换 步骤 最 好 使 用 
后 处 理 ， 因 为 该 处 理 过 程 提 供 了 检测 故障 的 检查 点 机 制 ， 包 括 文件 传输 的 校 验 和 ， 以 及 
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MapReduce 的 all-or-nothing (成 功 / 失 败 ) 行为 。 有 一 点 一 定 要 注意 : 能 够 配置 MapReduce 
进行 数据 的 传输 、 分 区 与 分 片 ， 而 不 需要 通过 all-ornothing 处 理 。 你 可 以 配置 带 有 两 个 输出 
目录 的 MapReduce， 一 个 目录 用 于 处 理 成 功 的 记录 ， 另 一 个 处 理 失 败 的 记录 。 某 些 情况 下 ， 
出 于 数据 的 时 效 性 要 求 ， 不 能 进行 简单 的 文件 传输 ， 并 在 其 后 进行 MapReduce 处 理 。 有 时 ， 
在 数据 由 Flume 之 类 的 工具 通过 流 采集 输入 集群 时 ， 需 要 完成 这 个 任务 。 如 果 使 用 Flume， 
这 个 任务 可 以 通过 拦截 器 (interceptor) 和 选择 器 (selector) 完成 。 本 章 后 面 将 介绍 更 多 和 
Flume 相关 的 知识 。 这 里 ， 我 们 先 简 单 了 解 一 下 拦截 器 和 选择 器 的 作用 。 

1. 拦截 器 

Flume 拦截 器 属于 Java 类 ， 使 得 事件 数据 在 传输 过 程 中 拥有 丰富 的 选择 。 因 为 拦截 器 是 通 
过 Java 语言 实现 的 ， 所 以 在 能 够 实现 的 功能 上 ， 它 具有 极 大 的 灵活 性 。 拦 截 器 能 够 转换 一 
个 事件 或 者 一 批 事 件 ， 也 能 够 从 一 批 事 件 中 增加 或 移 除 事件 。 实 施 拦截 器 时 必须 谨慎， 因 
为 它 属于 流 框架 的 一 部 分 ， 所 以 实施 不 应 该 引起 流水 线 变 慢 ， 变 慢 的 原因 包括 外 部 服务 器 
调用 和 垃圾 收集 问题 。 同 样 需要 记 住 的 是 ， 在 使 用 拦截 器 转换 数据 时 ， 处 理 能 力 有 一 定 的 
限制 ， 因 为 Flume 通常 只 在 集群 中 的 一 部 分 节点 上 安装 。 

2. 选择 器 


在 Flume 中 ， 选 择 器 是 一 个 岔路 口 。 它 会 决定 事件 将 走 哪 一 条 路 。 我 们 将 在 随后 的 Flume 
模式 中 提供 几 个 例子 。 


2.1.6 ”网 络 瓶颈 


将 数据 输入 Hadoop 中 时 ， 瓶 颈 常 常 是 源 系 统 或 者 源 系 统 与 Hadoop 之 间 的 网 络 。 如 果 瓶 
颈 是 网 络 ， 那 么 增加 网 络 带宽 和 压缩 数据 就 很 重要 了 。 你 可 以 在 发 送 文件 之 前 进行 压缩 处 
理 ， 或 者 使 用 Flume 压缩 网 络 瓶颈 两 端的 agent 之 间 的 数据 。 

如 果 想 要 确定 网 络 是 否 为 瓶颈 ， 最 简单 的 方法 是 看 一 下 吞吐 量 的 数值 以 及 网 络 配置 。1 Gb 
以 太 网 的 预计 吞吐 量 大 约 为 100 MBps。 如 果 通 过 Flume 看 到 吞吐 量 也 是 如 此 ， 那 么 网 络 
带宽 实际 上 已 经 得 到 了 最 充分 的 应 用 。 这 时 就 需要 考虑 压缩 数据 了 。 想 要 得 到 更 精准 的 判 
断 ， 你 可 以 使 用 网 络 监测 工具 来 测定 网 络 使 用 量 。 


2.1.7 网 络 安全 性 

用 户 有 时 只 能 从 公司 防火 墙 外 获取 数据 。 通 过 有 线 传输 时 ， 有 些 数据 可 能 需要 加 密 。 你 可 
以 在 发 送 数 据 前 简单 加 密 文 件 ， 如 使 用 OpenSSL。 你 也 可 以 使 用 Flume， 在 Flume agent 
之 间 加 密 要 发 送 的 数据 。 注 意 ，Kafka 目前 并 不 支持 Kafka 数据 流 之 间 的 数据 加 密 ， 所 以 
你 需要 在 Kafka 之 外 进行 加 密 和 解密 工作 。 


2.1.8 被 动 推送 与 主动 请 求 


本 章 讨论 的 所 有 工具 可 以 分 为 两 类 ， 被 动 推送 和 主动 请 求 。 架 构 中 的 Actor 值得 注意 ， 
为 最 终 Actor 有 一 些 额外 的 要 求 需要 考虑 。 


。 已 发 送 数 据 的 跟踪 。 
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。 任务 失败 后 选择 重 试 或 故障 切换 。 

。 对 数据 源 系统 持 敬 旦 之 心 ， 切 莫 滥用 。 

。 访问 控制 与 安全 性 。 

本 章 还 会 更 详细 地 介绍 这 些 要 求 ， 但 是 我 要 首先 讨论 一 下 两 个 常用 的 Hadoop 工具 一 一 
Sqoop 与 Flume， 以 明确 使 用 Hadoop 采集 和 提取 数据 时 ， 数 据 推送 和 抽取 的 差异 。 

1. Sqoop 

Sqoop 是 一 种 数据 抽取 方法 ， 用 于 从 外 部 存储 系统 (如 关系 型 数据 库 ) 中 提取 数据 ， 并 输 
入 Hadoop 中 ,或 者 从 Hadoop 中 提取 数据 ， 并 输入 外 部 系统 。 这 里 必须 提供 源 系 统 与 目标 
系统 的 不 同 参 数 ， 如 源 数 据 库 的 连接 信息 ， 需 要 提取 的 一 张 或 多 张 表 ， 等 等 。 参 数 确定 之 
后 ，Sqoop 将 执行 一 系列 任务 ， 移 动 所 请 求 的 数据 。 


在 以 下 例子 中 ，Sqoop 从 关系 型 数据 库 中 提取 ( 拉 ) 数据 。 我 们 需要 考虑 很 多 因素 。 举 例 

















提取 数据 。 我 们 也 需要 对 Sqoop 任务 做 出 计划 ， 防 止 它 干 扰 源 系统 的 加 载 高 峰 期 。 本 章 后 
面 会 提供 使 用 Sqoop 时 的 考虑 因素 与 细节 ， 并 提供 特定 的 使 用 案例 。 

2. Flume 

注意 ， 根 据 使 用 的 源 系 统 ， 两 个 版 本 中 的 Flume 都 能 够 被 分 桶 。 通 常会 采用 Log4J 
appender， 这 种 情况 下 ，Flume 通过 流水 线 推 事 件 。Flume 源 也 有 很 多 ， 包 括 Spooling 
Directory 源 和 JMS 源 ， 这 里 事件 处 于 被 抽取 的 状态 。 再 说 一 下 ， 我 们 会 在 本 节 以 及 本 书 
后 面 的 案例 中 更 详细 地 讲解 Flume。 


2.1.9 错误 处 理 


设计 数据 采集 流水 线 时 ， 一 个 主要 的 考虑 因素 是 错误 处 理 。 出 现 错误 时 如 何 恢 复数 据 是 一 
个 非常 重要 的 问题 。 在 大 型 分 布 式 系统 中 ， 问 题 不 在 于 错误 是 否 会 发 生 ， 而 是 什么 时 候 
发 生 。 设 计 采 集 流 时 ， 我 们 可 以 设置 多 层 保护 (有 了 时 会 牺牲 不 少 性 能 )， 但 是 没有 什么 高 
招 能 阻止 所 有 的 错误 。 这 里 需要 记录 错误 场景 ， 包 括 错误 推迟 预期 ， 以 及 如 何 处 理 数据 
丢失 。 


最 简单 的 错误 场景 与 文件 传输 有 关 ， 比 如 ，hadoop fs -put <filename> 命令 的 执行 。put 
命令 执行 完毕 时 ， 命 令 完成 了 文件 在 HDFS 中 的 验证 ， 复 制 三 次 ， 并 检查 校 验 和 。 但 是 如 
果 put 命令 失败 了 呢 ? 处 理 文件 传输 错误 的 一 般 方 法 是 ， 采 用 多 个 本 地 文件 系统 目录 ， 在 
文件 传输 过 程 中 代表 不 同 的 分 桶 。 我 们 来 看 一 下 使 用 该 方法 的 案例 。 


本 例 中 共有 四 个 本 地 文件 系统 目录 : ToLoad、InProgress、Failure 和 Successful。 这 里 的 工 
作 流 很 简单 ， 如 下 所 示 。 

(1) 将 文件 移动 到 ToLoad。 

(2) 准备 好 调用 put 命令 时 ， 将 文件 移动 到 InProgress 中 。 

(3) 调用 put 命令 。 

(4) 如 果 put 命令 出 现 错误 ， 则 将 文件 移动 到 Failure 目录 中 。 

(5) 如 果 put 命令 成 功 ， 将 文件 移动 到 Successful 目录 中 。 
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注意 ， 如 果 在 put 命令 执行 时 出 现 了 错误 ， 那 么 需要 重新 发 送 文 件 。 对 大 型 文件 调用 
hadoop fs -put 命令 时 ， 需 要 谨慎 考虑 该 问题 。 如 果 文 件 传 输 过 程 中 网 络 错误 发 生 时 间 为 
五 个 小 时 ， 那 么 需要 重新 开始 整个 处 理 过 程 。 


文件 传输 非常 简单 ， 所 以 我 们 来 看 一 个 流 采集 与 Fume 的 例子 。 在 Flume 中 ， 很 多 区 域 都 
可 能 发 生 错 误 ， 我 们 把 问题 简化 一 下 ， 将 重点 放 在 以 下 三 个 方面 。 


。 如 果 Channel 已 满 ， 数 据 抽取 的 源 (如 Spooling Directory 源 ) 将 无 法 把 事件 加 载 到 
Channel 中 。 这 种 情况 下 , 在 重新 尝试 进入 Channel 或 保留 事件 之 前 ,该 数据 源 必须 停止 。 

。 如 果 Channel 已 满 ， 主 动 接收 的 数据 源 将 无 法 将 事件 加 载 到 Channel 中 。 这 种 情况 下 ， 
该 数据 源 需 要 告知 Flume 用 户 无 法 接收 最 后 批 次 的 事件 ， 而 后 Flume 用 户 能 够 自由 地 
再 次 发 送 事 件 至 该 数据 源 或 其 他 数据 源 。 

。 Sink 无 法 将 事件 加 载 到 最 后 位 置 。Sink 将 从 Channel 中 提取 大 量 事件 ， 而 后 尝试 将 事 人 
发 送 到 最 终 位 置 。 但 是 如 果 发 送 失败 , 那么 需要 将 该 批 次 的 事件 重新 返回 到 Channel 中 。 


Flume 与 文件 传输 之 间 最 大 的 区 别 在 于 ， 出 现 错误 时 ， 使 用 Flume 能 够 复制 Hadoop 中 产 
生 的 记录 。 这 是 因为 ， 出 现 错误 时 ， 事件 总 是 会 返回 到 最 后 一 步 。 因 此 ， 如 果 批 处 理 部 分 
py 我 们 就 将 得 到 复制 记录 。 解决 该 问题 的 方法 很 多 ， 包括 使 用 Flume 和 其 他 流 处 理工 
具 ， 如 Kafka。 但 是 ， 流 处 理 时 尝试 将 复制 记录 移 除 ， 会 带 来 很 大 的 性 能 成 本 。 我 们 会 在 
处 理 删 除 的 内 容 中 看 一 个 例子 


2.1.10 复杂 度 


最 后 一 个 需要 考虑 的 设计 因素 是 用 户 使 用 的 复杂 性 。 简 单 来 说 ， 这 里 需要 考虑 用 户 是 否 
需要 手动 将 数据 移动 到 Hadoop 中 。 对 于 这 种 案例 ， 可 以 使 用 hadoop fs -put 命令 来 解 
决 问题 ， 也 可 以 采用 可 挂 载 的 HDFS， 如 用 户 空间 的 文件 系统 (Filesystem in Userspace， 
FUSE) 或 新 的 网 络 文件 系统 (Network File System，NFS)。 我 们 随后 会 讨论 这 些 选 择 。 


我 们 已 经 了 解 了 设计 数据 采集 流水 线 时 需要 考虑 的 因素 ， 下 面 将 深入 探讨 特定 的 采集 工 
具 ， 以 及 移动 数据 到 Hadoop 中 的 方法 。 我 们 会 从 简单 加 载 文 件 至 HDFS， 一 直 讲 到 使 用 
强大 的 工具 ， 如 Flume 与 Sqoop。 如 前 所 述 ， 我 们 的 目的 不 是 深入 地 介绍 这 些 工具 ， 而 是 
介绍 如 何 有 效 地 使 用 这 些 工 具 ， 并 且 将 这 些 工 具 作为 应 用 架构 的 一 部 分 。 文 中 提 及 的 各 工 
具 的 参考 资料 会 提供 更 为 深入 和 全 面 的 信息 。 


2.2.1 证 会 介绍 基本 的 文件 传输 ， 而 后 讨论 融入 Hadoop 架构 的 Flume、Sqoop 与 Kafka。 


2.2.1 文件 传输 


将 数据 导入 (以 及 导出 ) Hadoop 最 简单 的 方法 就 是 采用 文件 传输 一 一 换 句 话 说 ， 就 是 使 用 
hadoop fs -put 与 hadoop fs -get 命令 。 这 有 时 也 是 最 快 的 方法 。 所 以 ， 在 设计 Hadoop 
新 的 数据 处 理 流 水 线 时 ， 首 先 应 该 邦 虑 选择 文件 传输 。 


在 详细 讲解 之 前 ， 我 们 先 总 结 一 下 Hadoop 文件 传输 的 特点 。 
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。 这 是 一 种 all-or-nothing 批 处 理 方 法 ， 所 以 如 果 文 件 传 输 过 程 中 出 现 错误 ， 则 不 会 写 入 
或 读 取 任何 数据 。 这 种 方法 与 Flume、Kafka 之 类 的 采集 方法 不 同 ， 后 者 提供 一 定 程 
度 的 错误 处 理 功能 ， 并 且 有 传输 保障 。 

。 文件 传输 默认 为 单线 程 ， 不 能 并 行文 件 传输 。 

。 文件 传输 将 文件 从 传统 的 文件 系统 导入 HDFS。 

。 不 支持 数据 转换 ， 数 据 按 原样 导入 HDFS。 数 据 导 入 HDFS 后 才能 进行 处 理 ， 这 一 点 
与 传输 过 程 中 的 数据 转换 截然 相反 。 类 似 于 Flume 的 系统 支持 传输 过 程 中 的 数据 转换 。 

。 这 种 加 载 是 逐 字 节 进 行 的 ， 所 以 能 传输 任何 类 型 51 的 文件 (文本 、 二 进 制 文件 与 图 
片 等 )。 

1. HDFS 客 户 端 命令 

你 应 该 已 经 注意 到 了 ， 文 件 通 过 hadoop fs -put 命令 从 一 个 文件 系统 复制 到 HDFS 中 ， 而 

且 是 逐 字 节 地 复制 。 完 成 put 命令 时 ， 文 件 将 作为 一 个 或 多 个 数据 块 存 储 在 HDFS 中 ， 每 

个 数据 块 都 通过 不 同 的 Hadoop 数据 节点 进行 复制 。 复 制 文件 的 个 数 是 可 配置 的 ， 但 通常 

默认 复制 三 次 。 为 了 保证 数据 块 不 被 损坏 ， 每 个 数据 块 都 会 配备 一 个 校 验 和 文件 。 

使 用 put 命令 时 通常 可 以 采用 两 种 方法 : 双 跳 式 (double-hop) 与 单 跳 式 (single-hop)。 双 

跳 式 如 图 2-2 所 示 ， 需 要 从 Hadoop 边缘 市 点 的 磁盘 多 进行 一 些 数据 读 写 ， 所 以 这 种 方法 

比较 慢 。 尽 管 如 此 ， 如 果 数 据 源 的 外 部 文件 系统 无 法 挂 载 到 Hadoop 集群 中 ， 那 么 这 就 是 

惟一 可 行 的 方法 。 


本 地 磁盘 本 地 磁盘 


























图 2-2: 双 跳 式 文件 传输 


另 一 种 方法 是 单 跳 式 方法 ， 如 图 2-3 所 示 。 单 跳 式 方法 要 求 源 数 据 设备 可 挂 载 ， 比 如 NAS 
和 SAN。 外 部 数据 源 可 以 挂 载 ， 而 put 命令 能 直接 从 设备 读 取 文件 ， 并 直接 将 文件 写 入 
HDFS。 这 种 方法 的 优点 是 能 够 提升 性 能 ， 也 降低 了 边缘 市 点 对 大 型 本 地 存储 的 需求 。 


Hadoop 边 缘 节 点 
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图 2-3: 单 跳 式 文件 传输 
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2. 可 挂 载 的 HDFS 

除了 使 用 Hadoop 客户 端 中 包含 的 命令 ， 还 有 很 多 选择 可 以 将 HDFS 挂 载 为 一 个 标准 的 文 
件 系统 。 这 样 一 来 ， 用 户 就 可 以 通过 标准 文件 系统 中 的 命令 (包括 ls、cp 和 mv， 等 等 ) 
同 HDFS 交互 了 。 这 可 以 方便 用 户 访问 HDFS， 而 这 里 也 存在 HDFS 通过 客户 端 使 用 时 会 
受到 的 限制 。 


。 与 直接 访问 HDFS 相同 ， 这 些 方法 不 能 提供 完整 的 POSIX 语义 "。 
。 这 里 不 支持 随机 写 入 ; 后 端 文件 系统 仍然 是 “一 次 写 入 ， 多 次 读 取 ”。 


可 挂 载 HDFS 的 另 一 个 缺陷 是 存在 误 用 风险 。 尽 管用 户 能 够 更 轻松 地 访问 HDFS 与 采集 文 
件 ， 但 这 样 的 访问 可 能 会 引发 很 多 小 文件 的 采集 。 因 为 Hadoop 在 优化 之 后 更 适合 存储 数 
量 相对 较 少 的 大 文件 ， 所 以 应 该 防止 这 种 情况 发 生 。 注 意 ,“ 很 多 小 文件 ”可 能 表示 ， 在 
一 个 大 小 合理 的 集群 中 存在 数 百 万 个 文件 。 而 且 ， 为 了 保证 存储 性 能 与 处 理性 能 ，Hadoop 
最 好 存储 数量 更 少 的 大 文件 。 如 果 需 要 将 很 多 小 文件 输入 Hadoop， 可 以 采用 以 下 方法 降 
低 影 响 。 

。 使 用 Solr 存储 和 检索 小 文件 。 第 7 章 将 深入 讨论 Solr。 

。 使 用 HBase 存储 小 文件 ， 使 用 路 径 和 文件 名 称 作为 键 。 第 7 章 将 深入 讨论 HBase。 

。 使 用 容器 格式 ， 如 SequenceFiles 或 Avro， 合 并 小 文件 。 

很 多 项 目 都 为 Hadoop 提供 了 可 挂 载 的 接口 ， 我 们 重点 看 一 下 两 个 常用 的 选择 : Fuse-DFS 
与 NFS。 
























































。 Fuse-DFS 
Fuse-DFS 基于 FUSE 项 目 创建 ， 旨 在 促进 UNIX/Linux 文件 系统 的 创造 ， 同 时 不 需要 修 
改 核心 系统 。Fuse-DFS 使 用 户 更 容易 在 本 地 文件 系统 安装 HDFS。 但 是 作为 用 户 空间 
模块 ，Fuse-DFS 包括 用 户 应 用 与 HDFS 之 间 的 一 系列 跳跃 ， 会 显著 地 影响 性 能 。 另 外 ， 
Fuse-DFS 的 模型 持续 性 较 差 。 因 此 ， 用 户 在 使 用 Fuse-DFS 解决 产品 问题 之 前 应 该 慎重 
考虑 。 

。 NFSv3 
近来 出 现 的 项 目 增加 了 HDFS 支持 NFSv3 协议 (如 图 2-4 所 示 )。 该 设计 提供 了 可 扩 
展 的 方案 ， 而 且 性 能 影响 最 小 。 这 种 设计 包括 一 个 NFS 网 关 服 务 器 ， 该 服务 器 能 使 用 
DFSClient 将 文件 输入 HDFS。 用 户 可 以 通过 增加 多 个 NFS 网 关节 点 扩展 这 一 方法 。 
注意 ， 通 过 NFS 网 关 ， 核 心 系统 能 随机 发 送 写 入 操作 。 这 就 要 求 NFS 服务 器 在 将 写 入 
操作 发 送 到 HDFS 之 前 ， 缓 存 并 记录 写 入 操作 。 这 就 导致 了 较 高 的 数据 容量 ， 并 且 会 影 
响 性 能 和 磁盘 消耗 。 在 部 署 任何 可 挂 载 的 HDFS 方案 之 前 ， 一定 要 先 检 验 一 下 数据 容量 
是 否 足 够 大 ， 以 保证 该 方案 能 提供 所 需 的 性 能 。 总 之 ， 仅 推荐 将 这 些 方法 用 于 少量 的 手 
动 数据 传输 ， 而 不 能 用 于 数据 在 Hadoop 集群 进出 的 移动 过 程 。 
















































































注 1: POSIX 是 一 系列 标准 ， 意 在 使 操作 系统 具有 可 移植 性 。 其 中 也 包括 对 文件 系统 的 要 求 。HDFS 是 一 种 
“类 POSIX” 的 文件 系统 ， 但 它 并 不 具有 POSIX 兼容 文件 系统 所 支持 的 全 部 特性 。 
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本 地 磁盘 
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图 2-4: HDFS 的 NFSv3 网 关 


2.2.2 文件 传输 与 其 他 采集 方法 的 考量 


简单 文件 传输 在 某 些 情况 下 是 适用 的 ， 尤 其 是 在 需要 将 已 存在 的 一 系列 文件 输入 到 HDFS 
中 ， 而 且 可 以 接受 保持 产 文 件 的 原 格式 的 情况 下 。 否 则 ， 在 决定 是 否 可 以 接受 文件 传输 ， 
或 者 是 否 使 用 类 似 于 Flume 的 工具 时 ， 需 要 考虑 以 下 因素 。 


。 需要 将 数据 采集 到 多 个 位 置 吗 ? 比 如 ， 是 需要 将 数据 同时 输入 HDFS 和 Solr， 还 是 需要 
将 数据 同时 输入 HDFS 和 HBase ? 这 种 情况 下 ， 如 果 使 用 文件 传输 ， 那 么 在 文件 采集 
完成 之 后 将 需要 额外 的 工作 ， 因 此 采用 Flume 更 为 适合 。 

。 对 可 靠 性 的 要 求 高 不 高 ? 如 果 高 ， 那 么 一 旦 传输 过 程 出 现 错误 ， 文 件 传输 就 必须 重新 开 
始 。 这 时 ，Flume 同样 是 更 好 的 选择 。 

。 数据 采集 之 前 需要 转换 操作 吗 ? 如果 需 要 ，Flume 无 颖 是 适合 的 工具 。 

如 果 需 要 采集 文件 ， 可 以 考虑 的 使 用 Flume Spooling Directory 源 (https://flume.apache.org/ 

FlumeUserGuide.html#fspooling-directory-source) 。 采 用 这 种 方法 ， 用 户 将 文件 放置 到 磁盘 中 

特定 的 目录 就 可 以 采集 文件 。 这 种 采集 文件 的 方法 简单 可 靠 ， 而 且 需 要 时 能 够 实现 传输 过 

程 中 的 数据 转换 。 


2.2.3 Sqoop: Hadoop 与 关系 数据 库 的 批量 传输 


本 章 已 经 介绍 了 很 多 Sqoop 的 知识 ， 下 面 来 详细 了 解 一 下 相关 的 考虑 因素 和 最 佳 实践 。 如 
前 所 述 ，Sqoop 是 一 种 工具 ， 能 批量 地 将 数据 从 关系 数据 库 管 理 系统 导出 到 Hadoop 中 ， 
也 能 批量 地 将 数据 从 Hadoop 导出 至 关系 数据 库 管 理 系 统 。 当 使 用 Sqoop 将 数据 导出 至 
Hadoop 中 时 ，Sqoop 生成 仅 限于 映射 之 内 的 MapReduce 任务 。 每 个 Mapper 使 用 一 个 Java 
数据 库 连 接 (Java Database Connectivity，JDBC) 驱动 器 连接 数据 库 ， 然 后 选择 需要 导出 
的 表 ， 并 将 数据 写 和 人 HDFS。Sqoop 非常 灵活 ， 不 仅 能 够 输出 全 部 的 表 ， 还 增加 了 where 
语句 来 过 滤 导 出 的 数据 ， 其 至 能 提供 查询 操作 。 


比如 ， 按 照 以 下 方法 可 以 输出 单一 的 表 。 
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sqoop import --connect jdbc:oracle:thin:@localhost:1521/oracle \ 
--Username scott --password tiger \ 

--table HR.employees --target-dir /etL/HR/Landing/empLoyee \ 
--input-fields-terminated-by "\t" \ 

--Compression-codec org.apache.Hadoop.io.compress.SnappyCodec --compress 


下 为 输出 一 个 合并 结果 的 方法 : 


sqoop import \ 
--Connect jdbc:oracle:thin:@localhost:1521/oracle \ 
--Username scott --password tiger \ 
--query 'SELECT a.*, b.* FROM a JOIN b on (a.id == b.id) WHERE $CONDITIONS' \ 
--SpLit-by a.id --target-dir /user/foo/joinresults 


注意 ， 在 这 个 例子 中 ，$CONDITIONS 是 一 个 文本 值 ， 作 为 命令 行 的 一 部 分 输入 。Sqoop 通常 
使 用 $CONDITIONS 占 位 符 控制 任务 的 并 行 化 处 理 ， 运 行 命令 时 Sqoop 会 用 产生 的 条 件 代 禁 
该 占 位 符 。 

本 节 将 概述 几 个 以 Sqoop 为 数据 采集 方法 的 模式 。 

1. 选择 可 分 片 的 列 

输出 数据 时 ，Sqoop 会 采用 多 个 Mapper 来 并 行 化 数据 采集 过 程 ， 增 加 吞吐 量 。 在 默认 情况 
下 ，Sqoop 使 用 4 个 Mapper， 而 且 分 片 处 理 任务 。 分 片 的 方法 为 得 到 主键 列 的 最 大 值 与 最 
小 值 ， 然 后 在 Mapper 之 间 平 均 分 配 值 的 范围 。 将 Mapper 之 间 的 表 平 等 地 分 片 时 ，split- 
by 参数 能 指定 不 同 的 列 ， 而 且 nummappers 参数 能 控制 Mapper 的 数量 。 下 面 马上 会 讨论 
到 ， 在 这 里 指定 一 个 split-by 参数 ， 原 因 之 一 是 要 避免 数据 倾斜 。 注 意 ， 每 一 个 Mapper 
本 身 都 会 跟 数据 库 连 接 ， 而 且 在 where 语句 中 指定 限定 表 的 一 部 分 时 ， 每 一 个 Mapper 都 会 
检索 该 表 的 限定 部 分 。 选 择 一 个 包含 索引 或 者 分 区 键 的 分 片 列 很 重要 ， 这 样 能 够 避免 每 个 
Mapper 都 扫描 整个 表 。 如 果 没 有 这 类 的 键 ， 最 好 选择 只 指定 一 个 Mapper。 


2. 尽 可 能 地 使 用 数据 库 专 用 的 连接 器 
不 同 的 RDBMS 支持 不 同 版 本 的 SQL 语言 。 除 此 之 外 ， 不 同 RDBMS 会 以 不 同 的 方法 实施 
和 优化 数据 传输 。Sqoop 含有 一 个 通用 的 JDBC 连接 器 ， 所 以 能 用 于 任何 一 种 支持 JDBC 
的 数据 库 。 但 是 也 存在 一 些 供应 商 指定 的 连接 器 ， 能 翻译 不 同 的 语言 并 优化 数据 传输 。 比 
如 ，Teradata 连接 器 使 用 Teradata 的 FastExport 来 以 最 佳 方式 执行 数据 导出 ， 而 Oracle 连 
接 器 禁用 了 并 行 化 查询 ， 以 避免 查询 协调 器 出 现 瓶 颈 。 

3. 使 用 Goldilocks 原 则 调 优 Sqoop 性 能 

大 多 数 情况 下 ，Hadoop 集群 的 容量 都 远 胜 于 RDBMS。 如 果 Sqoop 使 用 了 太 多 Mapper， 
Hadoop 将 针对 用 户 的 数据 库 有 效 运行 一 个 拒绝 服务 攻击 。 如 果 使 用 了 过 多 的 Mapper， 那 
么 数据 采集 速度 可 能 需要 非常 慢 才能 满足 要 求 。 这 里 的 要 点 是 调整 Sqoop 任务 ， 以 使 用 合 
适 数量 的 Mapper 一 一 也 就 是 坚持 Goldilocks 原则 ”。 

由 于 数据 库 超载 的 风险 远大 于 采集 速度 变 慢 的 风险 ， 所 以 我 们 通常 首先 采用 数量 较 少 的 
Mapper， 然 后 逐渐 增加 Mapper 的 数量 ， 以 达到 Sqoop 采集 速度 与 数据 库 和 网 络 对 所 有 用 户 
的 响应 之 间 的 平衡 。 
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注 2: Goldilocks 原则 指 事物 必须 落 在 限定 范围 之 内 ， 而 不 会 达到 极限 值 。 
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4. 使 用 公平 调度 器 调整 并 行 加 载 多 张 表 

从 同一 个 RDBMS 中 采集 多 张 表 的 情形 很 常见 。 有 两 种 使 用 公平 调度 器 进行 节 流 控制 的 方 

法 。 

。 顺序 加 载 表 
这 是 目前 为 止 最 简单 的 方法 ， 其 缺点 是 无 法 优化 RDBMS 与 Hadoop 集群 之 间 的 带宽 。 
为 了 阐明 该 方法 ， 在 此 设想 我 们 拥有 五 张 表 。 因 为 并 不 是 所 有 的 表 都 需要 通过 全 部 数 
量 的 Mapper 来 采集 ， 所 以 采集 每 张 表 所 使 用 的 Mapper 数量 不 同 。 本 例 的 结果 如 图 2-5 
所 示 。 
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2-5: Sqoop 任务 顺序 执行 


如 图 2-5 所 示 ， 执 行 特定 任务 时 ， 有 些 Happer 闲置 了 。 这 种 情况 导致 用 户 产生 并 行 化 
运行 任务 的 想法 ， 由 此 便 能 充分 利用 可 用 的 Mapper， 缩 短处 理 时 间 与 网 络 时 间 。 

。 并 行 加 载 表 
Sqoop 任务 的 并 行 化 运行 可 以 使 用 户 更 为 有 效 地 使 用 资源 ， 但 是 管理 针对 RDBMS 运行 
的 所 有 Mapper 的 复杂 度 也 有 所 增加 。 要 解决 这 个 问题 ， 可 以 使 用 公平 调度 器 创建 一 个 
资源 他， 将 Mapper 的 最 大 数量 设 定 为 Sqoop 与 RDBMS 交互 时 能 够 使 用 的 最 大 数量 。 
如 果 操 作 正确 ， 执 行 同步 方法 中 所 提 到 的 五 个 任务 将 如 图 2-6 所 示 。 


2-6: 通过 公平 调度 器 将 任务 限制 为 4 个 ，Sqoop 任务 并 行 执行 


























































































































注 3: 公平 调度 器 是 一 种 在 任务 之 间 共 享 资源 的 方法 ， 能 够 为 每 个 任务 平均 分 配 资源 。 想 要 进一步 了 解 更 多 
Hadoop 公平 调度 器 相关 内 容 及 使 用 方法 ， 请 参阅 Eric Sammer 编著 的 《Hadoop 技术 详解 》 第 7 章 。 
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5. 瓶颈 诊断 定位 

有 时 我 们 会 发 现 ， 数 据 采 集 速 度 并 没有 随 着 Mapper 数量 的 增加 而 提升 。 理 想 的 情况 下 ， 
Mapper 增加 50%， 采 集 速度 也 应 当 每 分 钟 增加 50%。 尽 管事 实 上 很 难 达到 这 个 水 平 ， 但 如 
果 增 加 Mapper 对 采集 速度 造成 的 影响 很 小 ， 那 么 疲 水 线 中 可 能 存在 瓶颈 。 


以 下 为 一 些 可 能 存在 的 瓶颈 。 















































网 络 瓶颈 
Hadoop 集群 与 RDBMS 之 间 的 网 络 可 能 为 1 GbE 或 10 GbE。 这 意味 着 二 者 的 采集 速度 
分 别 限 制 在 120 MBps 和 1.2 GBps 左右 。 如 果 接 近 这 个 速度 ， 那 么 增加 Mapper 将 会 增 
加 数据 库 的 负载 ， 却 不 能 提高 采集 速度 。 

关系 型 数据 库 

从 数据 库 中 读 取 数据 占用 了 数据 库 服务 器 的 CPU 资源 ， 以 及 磁盘 的 IO 资源 。 如 果 无 
法 获得 这 些 资产， 那么 增加 Mapper 数量 可 能 会 使 情况 变 得 更 差 。 你 需要 检查 Mapper 产 
生 的 查询 。 在 增 量 模 型 中 ，Sqoop 更 适合 使 用 索引 。 使 用 Sqoop 采集 整个 表 时 ， 通 常 要 
全 表 扫 描 。 如 果 多 个 Mapper 竞争 访问 同一 个 数据 块 ， 那 么 吞吐 量 也 会 降低 。 最 好 与 企 
业 的 数据 库 管 理 者 探讨 一 下 Sqoop 的 问题 ， 并 且 让 管理 者 在 数据 导出 到 Hadoop 时 监控 
数据 库 。 当 然 ， 在 数据 库 使 用 量 很 低 时 ， 计 划 Sqoop 执行 时 间 是 最 理想 的 。 

数据 倾斜 

使 用 多 个 Mapper 输出 整个 表 时 ，Sqoop 用 主键 将 Mapper 之 间 的 表 分 开 。 该 方法 先 得 
到 键 的 最 高 值 与 最 低 值 ， 然 后 按照 Mapper 数量 平均 分 配 。 比 如 ， 如 果 我 们 使 用 了 两 个 
Mapper ，customer_id 是 表 的 主键 ， 运 行 select min(customer id) 和 max(customer_id) 
from customers 命令 得 到 的 值 为 1 与 500。 那么 第 一 个 Mapper 会 输出 1~250 的 消费 者 数 
据 ， 而 第 二 个 Mapper 输出 251~500 的 消费 者 数据 。 这 意味 着 如 果 数 据 出 现 倾斜 ， 由 于 
丢失 值 ， 部 分 范围 真实 含有 的 数据 更 少 ， 那 么 一 些 Mapper 就 需要 处 理 更 多 的 任务 。 使 
用 --split-by 命令 可 以 选择 更 好 的 分 片 列 ， 或 者 使 用 - -boundary-query 命令 进行 查询 ， 
以 确定 在 Mapper 中 将 行 分 片 的 方法 。 

连接 器 

不 使 用 RDBMS 特定 的 连接 器 (connector)， 或 者 使 用 旧版 本 的 连接 器 ， 都 会 导致 采用 
更 慢 的 导入 方法 ， 因 此 采集 速度 更 慢 。 

Hadoop 

与 Hadoop 集群 的 总 容量 相 比 ，Sqoop 使 用 的 Mapper 数量 相对 较 少 ， 所 以 这 不 太 可 能 成 
为 瓶颈 。 但 是 ， 最 好 还 是 核实 一 下 ， 确 定 Sqoop 的 Mapper 并 没有 等 待 任务 槽 可 用 ， 而 
且 要 检查 磁盘 IJO、CPU 利用 率 以 及 数据 节点 的 交换 (Mapper 运行 的 数据 节点 )。 
访问 方式 不 良 

不 存在 主键 时 ， 或 者 输出 查询 结果 时 ， 用 户 需 要 指定 自己 的 分 片 列 。 非 常 重要 的 是 这 
个 列 要 么 是 分 区 键 ， 要 么 包含 一 个 索引 。 多 个 Mapper 对 同一 个 表 运 行 全 表 扫 描 ， 会 导 
致 RDBMS 上 明显 的 资源 冲突 。 如 果 未 发 现 该 类 分 片 列 ， 那 么 输出 数据 时 只 能 使 用 一 
个 Mapper。 这 种 情况 下 ， 一 个 Mapper 的 运行 速度 其 实 要 比 多 个 含有 较 差 的 分 片 列 的 
Mapper 快 。 
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6. 保证 Hadoop 的 数据 同步 

数据 从 RDBMS 采集 到 Hadoop， 这 通常 不 是 一 个 单一 事件 。 随 着 时 间 的 流逝 ，RDBMS 
中 的 数据 会 发 生 改 变 ， 那 么 就 需要 更 新 Hadoop 中 的 数据 。 一 定 要 记 住 ， 在 这 种 情况 下 ， 
HDFS 为 只 读 型 的 文件 系统 ， 不 能 更 新 数据 文件 (支持 添加 操作 的 HBase 表 除 外 )。 想 要 
更 新 数据 ， 我 们 需要 替换 数据 集 、 增 加 分 区 ， 或 者 通过 合并 变更 创建 新 的 数据 集 。 


如 有 果 表 相对 较 小 而 且 采 集 整 个 表 花 费 的 时 间 较 少 ， 则 不 需要 追踪 表 的 修改 或 者 添加 。 需 要 
更 新 Hadoop 中 的 数据 时 ， 可 以 简单 地 重新 运行 原始 的 Sqoop 输出 命令 ， 然 后 采集 整个 表 
(其 中 包括 了 所 有 的 修改 )， 用 新 的 版 本 取代 旧 的 版 本 。 


如 果 表 比较 大 而 且 采 集 时 间 比 较 长 ， 我 们 更 倾向 于 只 采集 上 次 采集 之 后 对 表 作 出 的 修改 。 

这 里 要 求 鉴别 此 类 修改 。Sqoop 支持 以 两 种 方法 鉴别 新 行 或 者 经 过 更 新 的 行 。 

。 Sequence ID 
如 果 每 个 行 都 有 一 个 特定 的 ID ， 而 且 新 行 的 ID 比 旧 行 更 高 ， 那 么 Sqoop 能 够 跟踪 最 后 
写 入 HDFS 中 的 ID。 那么 ， 下 一 次 运行 Sqoop 时 就 只 输出 比 上 次 ID 更 高 的 行 。 这 种 方 
法 适用 于 事实 表 。 事 实 表 中 添加 了 新 数据 ， 但 是 没有 更 新 已 经 存在 的 行 。 


比如 ， 首 先 创建 一 个 任务 : 


sqoop job --create movie id --import --connect \ 
jdbc:mysqL://LocaLhost/movieLens \ 

--Username training --password training \ 

--table movie --check-column id --incremental append 


然后 ， 增 量 更 新 RDBMS 数据 ， 执 行 该 任务 : 
sqoop job --exec movie id 


。 时 间 蕉 

如 有 果 每 个 行 都 有 一 个 时 间 惟 来 表示 行 的 创建 时 间 ， 或 者 上 一 次 更 新 时 间 ， 那 么 Sqoop 就 

能 存储 上 次 写 入 HDFS 时 的 时 间 改 。 执 行 下 一 个 任务 时 ，Sqoop 将 只 输出 带 有 更 高 时 间 

戳 的 行 。 这 种 方法 适用 于 维度 变化 较 慢 的 情况 。 这 种 情况 既 增加 了 行 又 更 新 了 行 。 
运行 Sqoop 并 开启 --incremental flag 开关 时 ， 你 可 以 复 用 同一 目录 名 ， 这 样 会 把 新 的 数 
据 作为 另外 的 文件 存储 到 这 一 目录 中 。 这 意味 着 在 这 一 数据 目录 上 运行 的 任务 不 需要 额外 
的 操作 就 能 看 到 所 有 即将 到 来 的 新 数据 。 该 设计 的 缺点 是 缺乏 数据 一 致 性 ， 当 Sqoop 正在 
运行 的 时 候 ， 任 务 也 开始 执行 ， 那 么 该 任务 可 能 只 处 理 了 部 分 已 加 载 的 数据 。 我 们 推荐 让 
Sqoop 将 增 量 的 数据 更 新 加 载 到 新 的 目录 中 。 一 旦 Sqoop 完成 数据 的 加 载 ( -SUCCESS 文 
件 出 现 说 明 加 载 完成 )， 就 可 以 对 数据 进行 清理 和 预 处 理 ， 这 些 可 以 在 将 数据 复制 到 数据 
目录 之 前 进行 。 新 的 目录 也 可 以 作为 新 的 分 区 添加 到 已 存在 的 Hive 表 中 。 


当 增 量 采 集 的 数据 不 仅 包含 新 的 行 ， 而 且 包含 对 已 存在 行 的 更 新 时 ， 我 们 需要 合并 新 数据 
集 和 旧 数 据 集 。Sqoop 支持 这 种 操作 ， 命 令 为 sqoop-merge。 这 里 涉及 的 参数 包括 : 合并 
键 (通常 为 表 的 主键 )、 新 旧 目 录 以 及 作为 参数 的 目标 位 置 。Sqoop 将 读 取 两 个 数据 集 ， 而 
当 两 行 的 键 相同 时 ， 将 保留 最 新 的 版 本 。sqoop-merge 的 代码 是 相当 通用 的 ， 支 持 Sqoop 
产 出 的 任意 数据 集 。 如 果 数 据 集 有 序 ， 并 且 进 行 了 分 区 处 理 ， 合 并 处 理 操 作 可 以 利用 这 一 
点 ， 以 一 种 更 高 效 的 方式 运行 ， 即 只 包含 Map 的 任务 。 
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2.2.4 Flume: 基于 事件 的 数据 收集 及 处 理 

Flume 是 一 种 分 布 式 的 可 靠 开 源 系统 ， 用 于 流 数 据 的 高 效 收集 、 聚 集 和 移动 。Flume 通常 
用 于 移动 日 志 数 据 ， 但 是 也 能 移动 大 量 事件 数据 ， 如 社交 媒体 订阅 、 消 息 队 列 事件 或 者 
网 络 流 量 数据 。 我 们 将 在 这 里 简单 地 介绍 一 下 Flume， 然 后 讨论 使 用 时 需要 考虑 的 因素 与 
建议 。 如 欲 了 解 更 多 关于 Flume 的 内 容 ， 请 参阅 Flume 官方 文档 (http://flume.apache.org/ 
documentation.html) 及 《Flume: 构建 高 可 用 、 可 扩展 的 海量 日 志 采 集 系 统 》。 


1. Flume 架 构 
2-7 展示 了 Flume 的 主要 组 件 。 






























































Flume agent 











2-7: Flume 组 件 











。 Flume 的 数据 源 使 用 来 自 外 部 数据 源 的 事件 ， 然 后 转发 到 Channel 中 。 外 部 数据 源 可 
以 是 任何 一 个 能 够 产生 事件 的 系统 ， 比 如 Twitter 这 样 的 社交 媒体 网 站 、 机 器 日 志 ， 或 
者 消息 队列 。 实 施 Flume 数据 源 的 目的 是 使 用 来 源 于 特定 外 部 数据 源 的 事件 ， 很 多 数 

据 源 都 能 与 Flume 一 起 使 用 ， 包 括 AvroSource、SpoolDirectorySource、HTTPSource 与 

JMSSource。 

。 Flume 拦截 器 能 够 拦截 事件 ， 并 且 能 在 传输 过 程 中 对 事件 作出 修改 。Flume 拦截 器 还 能 
够 转化 事件 ,丰富 事件 或 者 实施 Java 类 任何 一 种 基本 的 操作 ,拦截 器 常用 于 格式 化 分区、 
过 滤 、 分 片 、 验 证 ， 或 者 将 源 数据 用 于 事件 。 

。 选择 器 为 事件 提供 了 路 径 。 用户 能 够 使 用 选择 器 将 事件 发 送 到 零 至 多 个 路 径 。 正 因 如 此 ， 
如 果 需 要 分 至 多 个 Channel， 或 者 需要 基于 事件 发 送 到 特定 Channel， 那 么 选择 器 会 非 
常 有 用 。 

。 Flume Channel 存储 事件 ， 直 到 填 满 一 个 Sink。 最 常用 的 Channel 为 Memory Channel 与 
File Channel。Memory Channel 将 事件 存储 于 内 存 ， 在 Channel 之 中 提供 了 最 佳 性 能 。 
但 是 如 果 处 理 或 者 主机 操作 失灵 ， 将 会 丢失 事件 ， 导 致 可 靠 性 降 到 最 低 。 更 为 常用 的 磁 
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盘 Channel 通过 磁盘 的 持久 存储 提供 更 持久 的 事件 存储 。 选 择 正 确 的 Channel 是 一 个 很 
重要 的 构架 决策 ， 需 要 平衡 性 能 与 持久 性 。 

。 Sink 将 事件 从 Channel 中 移 除 并 传输 到 目的 位 置 。 目 的 位 置 可 能 是 事件 的 最 终 目标 系统 ， 
或 者 可 以 进一步 进行 Flume 处 理 的 位 置 。 常 用 的 Flume Sink 是 HDFS Sink， 顾名思义 ， 
它 会 将 事件 写 入 HDFS 文件 中 。 

。 Flume agent 是 这 些 组 件 的 容器 ， 承 载 着 Flume 数据 源 、Sink、Channel 等 JVM 进程 。 

Flume 的 特点 如 下 。 

。 可 靠 性 
事件 会 一 直 在 Channel 中 存储 ， 直 到 传输 到 下 一 个 阶段 。 

。 可 恢复 性 
事件 可 以 持久 化 到 硬盘 ， 然 后 在 出 现 错误 时 恢复 。 

。 上 声明 式 
无 需 编 码 ， 配 置 会 指定 各 组 件 的 组 合 方式 。 

。 高 度 定 制 化 
尽管 Flume 包含 大 量 的 数据 源 、Sink 以 及 框架 外 的 组 成 ， 但 它 提 供 高 度 可 插 拔 的 框架 ， 
能 按照 用 户 的 需求 定制 化 地 实现 。 

关于 保证 的 说 明 

尽管 Flume 提供 了 “有 担保 的 ”传输 ， 但 实际 使 用 时 并 不 能 提供 百分之百 的 

保证 。 各 种 错误 都 有 可 能 发 生 : 内 存 错误 、 磁 盘 错 误 ， 甚 至 是 整个 节点 都 出 

现 错误 。 虽 然 Flume 不 能 为 事件 传输 提供 百分之百 的 保证 ， 但 是 它 可 以 通过 

配置 调整 安全 指数 。 高 水 平 的 保证 当然 会 导致 性 能 降低 。 架 构 师 的 责任 是 决 

定 需 要 哪个 水 平 的 保证 ， 让 保证 与 性 能 之 间 达 到 平衡 。 本 章 将 进一步 讨论 相 

关 的 考虑 因素 。 






















































































2. Flume 范 式 

以 下 模式 阐明 了 Flume 采集 数据 时 的 一 些 常见 应 用 。 

-高 天 

到 2-8 为 一 个 局 入 式 架 构 的 例子 ， 这 可 能 是 最 常见 的 Flume 架构 。 本 例 中 ， 每 个 数据 源 
系统 〈 即 网 络 服务 器 ) 上 都 部 署 了 一 个 Flume agent， 将 事件 发 送 到 Hadoop 边缘 节点 上 
的 agent。 

这 些 边缘 节点 应 该 在 同一 个 网 络 中 ， 与 Hadoop 集群 的 位 置 相 同 。 使 用 多 个 边缘 节点 能 
够 提供 可 靠 性 : 一 个 边缘 节点 出 现 错误 ， 事 件 不 会 丢失 。 我 们 也 推荐 在 发 送 之 前 将 事件 
压缩 ， 这 样 能 够 减少 网 络 流量 。 如 果 安 全 性 很 重要 ， 也 可 以 使 用 SSL 来 加 密 数据 。 在 
后 面 的 点 击 流 处 理 问题 中 ， 我 们 会 看 到 Flume 局 人 式 配 置 的 完整 例子 。 
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2-8: Flume 扇 入 式 架 构 


采集 时 数据 分 片 
另 一 个 常见 的 模式 为 将 事件 分 片 ， 然 后 采集 到 多 个 目标 位 置 。 这 种 模式 经 常用 于 








年 事 





件 发 送 到 主要 集群 ， 以 及 用 于 灾难 恢复 (Disaster Recovery，DR) 的 备用 集群 。 图 






































2-9 


中 ， 我 们 使 用 Flume 将 同样 的 事件 写 入 Hadoop 的 主要 集群 与 备用 集群 。 在 主要 集群 无 
法 使 用 的 情况 下 ，DR 集群 更 像 事 件 中 的 错误 恢复 集群 。 有 效 备 份 Hadoop 量 级 的 数据 











集 通常 需要 另 一 个 Hadoop 集群 ， 所 以 该 集群 也 可 以 用 于 数据 备份 。 















HDFS DR 








2-9: Flume 事件 分 片 架 构 


采集 时 数据 分 区 








Flume 也 能 用 于 对 采集 的 数据 分 区 ， 如 图 2-10 所 示 。 比 如 ，HDFS Sink 能 按照 时 间 惟 对 











事件 分 区 。 
流 式 数据 分 析 时 的 事件 分 片 











到 目前 为 止 ， 我们 只 讨论 了 最 终 目 标 为 持久 层 的 Flume， 但 是 Flume 也 常用 于 将 事件 发 
送 到 一 个 流 分 析 引 敬 ， 如 Storm 或 Spark Streaming， 该 类 引擎 能 够 生成 实时 计数 (Real- 











Zs 





time Counts)、 窗 口 (Windowing) 与 汇总 (Summaries)。 就 Spark Streaming 而 言 ， 




















于 它 实 现 了 Flume 的 Avro 数据 源 接 口 ， 所 以 集成 起 来 很 简单 。 因 此 ， 我 们 只 需要 将 一 


个 Flume Avro Sink 指向 Spark Streaming 的 Flume Stream 即 可 。 
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图 2-10 Flume 分 区 式 架 构 


3. 文件 格式 

使 用 Flume 将 数据 采集 到 HDFS 时 ， 需 要 考虑 以 下 文件 格式 方面 的 问题 (第 1 章 已 经 深入 

讨论 了 存储 方面 需要 考虑 的 问题 ) 。 

。 文本 文件 
使 用 Flume 处 理事 件 时 ， 文 本 是 一 个 非常 常见 的 格式 ， 但 是 不 是 HDFS 文件 的 最 佳 格 
式 ， 原 因 如 第 1 章 所 述 。 一 般 来 说 ， 通 过 Flume 采集 的 数据 应 该 保存 在 SequenceFile 
(HDFS Sink 的 默认 格式 ) 中 ， 或 者 作为 Avro 进行 保存 。 注 意 ， 将 文件 保存 为 Avro 时 ， 
采集 和 后 续 处 理 可 能 需要 额外 的 工作 转化 数据 。 我 们 将 提供 一 个 点 击 流 处 理 中 的 Avro 
保存 案例 。SequenceFile 与 Avro 都 能 提供 有 效 压缩 ， 也 都 是 可 分 片 式 的 。Avro 为 优先 
选项 ， 因 为 它 能 够 将 模式 作为 文件 的 一 部 分 进行 存储 ， 也 能 提供 更 有 效 的 压缩 。Avro 
格式 内 部 有 检查 点 ， 如 果 写 入 文件 时 出 现 问题 ，Avro 能 提供 更 好 的 错误 处 理 。 

。 列 式 文 件 格式 
列 式 格式 (如 RCFile、ORC 或 Parquet) 也 不 适用 于 Flume。 这 些 格式 的 压缩 更 有 效 ， 
但 与 Flume 一 起 使 用 时 ， 需 要 批量 的 数据 ， 这 就 表明 如 果 出 现 问 题 可 能 会 丢失 更 多 数 
据 。 另 外 ，Parquet 需要 在 文件 尾部 写 和 模式， 所 以 一 旦 出 现 问题 ， 整 个 文件 就 会 全 部 
丢失 。 


Flume 事件 序列 化 器 (Flume Event Serializer) 将 一 个 Flume 事件 转化 为 另 一 种 格式 后 输 
出 ， 所 以 能 通过 它 写 入 不 同 格式 的 事件 。Flume HDFS Sink 支持 文本 格式 和 SequenceFiles 
格式 ， 所 以 可 以 直接 将 文本 格式 或 者 SequenceFiles 格式 的 事件 写 入 HDFS。 我 们 在 前 面 
提 到 过 ， 采 集 Avro 格式 的 文件 时 ， 采 集 和 后 续 处 理 阶段 可 能 需要 一 些 额外 的 工作 。 注 意 ， 
Avro 的 事件 序列 化 器 可 用 于 HDFS Sink， 但 是 创建 Avro 数据 时 将 使 用 事件 模式 ， 而 事件 
模式 并 不 是 存储 数据 的 首选 模式 。 不 过 也 可 以 按照 用 户 自 己 的 逻辑 需求 重 写 EventSerializer 
接口 ， 而 后 创建 自 定义 的 输出 模式 。 持 和 久 性 数据 经 常 需要 创建 格式 ， 而 且 格式 不 能 与 发 送 
的 Flume 事件 相同 ， 所 以 创建 自 定义 的 事件 序列 化 器 是 一 种 常见 的 任务 。 注 意 ， 拦 截 器 也 
可 用 于 此 类 格式 化 ， 但 是 事件 序列 化 器 离 磁 盘 最 后 的 输入 位 置 更 近 ， 然 而 在 到 达 序 列 化 阶 
段 之 前 ， 还 需要 通过 一 个 Channel 与 一 个 Sink。 


4. 推荐 使 用 方式 
以 下 为 使 用 Flume 的 一 些 意 见 以 及 最 佳 实践 。 
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Flume 数据 源 Flume 数据 源 当然 是 Flume 流水 线 的 开始 部 分 。Flume 数据 源 是 数据 〈 比 
如 ， 从 Avro 数据 源 ) 输入 Flume， 或 数据 输出 到 其 他 系统 (比如 JMS 数据 源 ) 的 位 置 。 
配置 Flume 数据 源 时 需要 考虑 两 个 主要 因素 ， 这 也 是 Flume 能 达到 最 佳 性 能 的 关键 因素 。 


。 批 处 理 大 小 

Flume 批 中 事件 的 数量 能 对 性 能 造成 极 大 的 影响 。 以 Avro 数据 源 为 例 ， 用 户 将 一 批 事 
件 发 送 到 Avro 数据 源 ， 而 后 必须 等 待 。 直 到 事件 进入 Channel， 而 且 Avro 数据 源 通过 
一 个 成 功 信号 对 用 户 做 出 反馈 。 这 看 起 来 似乎 很 简单 ， 但 是 网 络 延迟 会 对 该 过 程 造 成 很 
大 的 影响 ， 如 图 2-11 所 示 ， 几 毫秒 的 延迟 都 会 显著 拖延 事件 处 理 。 图 中 ， 输 出 一 批 事 
件 存在 12 毫秒 的 延迟 。 现 在 ， 如 果 要 加 载 一 百 万 个 事件 ， 设 定 批 处 理 大 小 为 1， 则 传 
输 时 间 为 3.33 小 时 ， 如 果 批 处 理 大 小 为 1000， 则 传输 时 间 为 12 秒 。 因 此 ， 配 置 Flume 
时 应 该 设置 一 个 合适 的 批 处 理 大 小 ， 这 样 才能 获得 最 优 性 能 。 首 先 将 批 处 理 大 小 设 定 为 
1000， 一 次 1000 个 事件 ， 而 后 根据 性 能 在 此 基础 上 上 下 调整 。 























































































































单 批 花 销 


Channel 














2-11: 延迟 对 Flume 性 能 的 影响 


。 线程 数 
理解 Flume 数据 源 使 用 线程 的 方法 ， 能 够 使 用 户 最 大 化 地 利用 包含 数据 源 的 多 线程 。 一 
般 来 说 ， 线 程 越 多 ， 网 络 或 CPU 的 占用 率 就 越 高 。Flume 中 ， 不 同 的 数据 源 线程 也 有 
所 不 同 。 比 如 , Avro 数据 源 是 一 种 Netty 服务 “, 而 且 在 同一 时 间 内 用 户 可 以 多 次 连接 该 
数据 源 ， 所 以 只 需 简单 地 增加 更 多 用 户 或 者 用 户 线程 ， 就 能 使 Avro 数据 源 多 线程 化 。 
JMS 数据 源 则 不 同 ， 它 是 一 种 主动 拉 取 数据 的 数据 源 ， 所 以 如 果 想 获得 更 多 线程 ， 就 
需要 在 Flume agent 中 配置 更 多 数据 源 。 

Flume Sink 记 住 ，Sink 的 作用 是 引导 数据 进入 最 终 目 的 位 置 。 在 Flume agent 中 配置 

Flume Sink 需要 考虑 以 下 因素 。 


。 Sink 数 
一 个 Sink 只 能 从 一 个 Channel 中 抓 取 数 据 ， 但 是 多 个 Sink 能 从 同一 个 Channel 中 抓 取 
数据 。 一 个 Sink 只 能 在 单线 程 上 运行 ， 所 以 单个 Sink 存在 局 限 性 ， 比 如 ， 磁 盘 的 吞吐 
量 就 会 受到 限制 。 假 设 对 于 HDFS， 一 个 磁盘 占有 的 空间 为 30 MBps， 如 果 用 户 只 有 一 
个 写 入 HDFS 的 Sink， 那 么 使 用 该 Sink 所 能 得 到 的 最 大 吞吐 量 为 30 MBps。 使 用 多 个 
Sink 从 同一 个 Channel 中 抓 取 数据 ， 将 解决 这 一 瓶颈 问题 。 网 络 或 CPU 会 对 更 多 Sink 
的 使 用 造成 限制 。 除 非 集群 非常 小 ， 否 则 HDFS 不 应 该 成 为 瓶颈 。 
























































注 4: Netty 是 Java 的 一 个 软件 框架 ， 则 在 简化 客户 端 - 服务 器 网 络 应 用 程序 的 开发 。 
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批 处 理 大 小 

记 住 ， 在 所 有 的 磁盘 操作 中 ， 缓 存 都 为 吞吐 量 带 来 了 显著 的 优势 。 也 要 记 住 ， 对 于 保证 
Channel 正常 运行 的 Flume Sink， 提 交 事 件 后 需要 将 事件 存储 到 磁盘 中 。 也 就 是 说 ， 输 
出 到 磁盘 的 数据 流 需要 清空 ， 进 而 需要 在 开始 时 调用 系统 命令 fsync。 如 果 Sink 获取 了 
较 小 批 的 数据 ， 那 么 将 有 大 量 时 间 花 费 大 在 这 些 系统 命令 的 执行 上 。 这 里 只 有 一 个 大 
缺陷 : Sink 获取 大 批 数 据 时 增加 了 复制 事件 的 风险 。 比 如 ， 事 件 写 入 HDFS 之 后 Flume 
处 理 暂停 ， 但 是 未 被 确认 ， 那 么 当 处 理 重 新 开始 时 ， 事 件 就 会 被 重新 写 和 人。 因此 ， 很 重 
要 的 一 点 就 是 谨慎 调整 批 处 理 大 小 ， 这 样 才能 获得 吞吐 量 与 潜在 复制 风险 之 间 的 平衡 。 
但 是 ， 就 像 我 们 刚才 所 说 的 ， 增 加 一 个 后 续 处 理 步 又 以 移 除 复制 记录 会 相对 简单 一 些 。 
我 们 随后 看 一 下 案例 。 
























































Flume 拦截 器 拦截 器 是 Flume 中 非常 有 用 的 组 件 。 拦 截 器 提供 了 强大 的 功能 ， 能 够 获取 
一 个 或 者 一 组 事件 ， 并 且 对 事件 进行 修改 、 过 滤 或 者 分 片 。 但 是 ， 仍 需要 警惕 : 一 个 自 定 
义 的 拦截 器 当然 使 用 自 定义 代码 ， 而 自 定义 代码 却 会 带 来 一 些 风险 ， 如 内 存 泄露 或 CPU 
消耗 过 多 。 记 住 ， 作 用 越 强 ,将 bug 引入 生产 环境 的 风险 就 越 高 ， 所 以 仔细 检查 和 检测 所 
有 的 自 定义 拦截 器 代码 是 非常 重要 的 。 

Flume Memory Channel 如 果 性 能 是 主要 考虑 因素 ， 而 且 数 据 丢失 不 是 主要 问题 ， 那 么 最 
好 选择 Memory Channel。 记 住 ， 对 于 Memory Channel， 如 果 一 个 节点 出 现 问题 ， 或 者 控 
制 Channel 的 Java 处 理 被 结束 ， 那 么 仍然 处 于 Memory Channel 的 事件 将 永久 丢失 。 而 且 ， 
能 够 存储 的 事件 数量 受 可 用 的 RAM 限制 ， 所 以 在 下 流出 现 错误 时 ，Memory Channel 缓存 





hl 












































事件 的 能 力也 会 受到 限制 。 





Flume File Channel 如 前 所 述 ， 由 于 File Channel 使 事件 持久 化 地 存储 于 磁盘 上 ， 所 以 
File Channel 比 Memory Channel 更 持久 耐用 。 但 是 ， 值 得 注意 的 是 ，File Channel 的 配置 可 
以 在 持久 性 与 性 能 之 间 做 出 权衡 。 








在 推荐 使 用 File Channel 之 前 需要 注意 ， 除 了 能 将 事件 写 入 磁盘 ，File Channel 也 能 将 事件 


写 入 周期 性 的 检查 点 。 这 些 检查 点 有 助 于 重新 启动 和 恢复 File Channel。 所 以 ， 在 配置 File 
Channel 确保 可 靠 性 时 ， 应 该 考虑 一 下 这 些 检 查 点 。 


以 下 为 使 用 File Channel 的 一 些 考虑 因素 与 建议 。 

















可 以 配置 File Channel 使 用 多 个 磁盘 ， 在 不 同 磁盘 之 间 交 禁 写 入 事件 。 这 样 有 助 于 提高 
性 能 。 而 且 ， 如 果 一 个 节点 包含 多 个 File Channel， 那 么 应 该 使 用 明确 的 目录 ， 并 且 让 
每 个 Channel 对 应 不 同 的 磁盘 。 

使 用 企业 存储 系统 (如 NAS) 能 保证 数据 不 会 丢失 ， 但 是 会 降低 性 能 ， 增 加 成 本 。 
使 用 双重 检查 点 目录 。 应 该 使 用 一 个 备份 的 检查 点 目录 为 防止 数据 丢失 提供 更 高 的 保证 。 
通过 设 定 useDualCheckpoint 为 true 来 配置 该 目录 ， 并 为 backupCheckpointDir 设 定 对 
应 的 目录 。 








我 们 也 应 该 注意 相对 而 言 不 太 常 用 的 JDBC Channel。JDBC Channel 能 够 将 事件 永久 存储 
于 兼容 JDBC 的 数据 库 ， 如 关系 型 数据 库 。 这 是 持久 性 最 好 的 Channel， 但 是 写 入 数据 库 
的 损耗 很 高 ， 所 以 最 不 常用 。 出 于 性 能 方面 的 考虑 ， 一 般 不 推荐 使 用 JDBC Channel。 只 


























在 应 用 对 可 靠 性 要 求 极 高 的 时 候 才 应 该 使 用 JDBC Channel。 
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关于 Channel 的 说 明 

我 们 已 经 讨论 了 Memory Channel 与 File Channel 之 间 的 差异 和 各 自 的 适用 情 
况 ， 但 是 在 某 些 情况 下 ， 同 一 个 架构 中 需要 同时 使 用 两 种 Channel。 一 种 常 
见 的 模式 是 ， 将 事件 分 片 ， 从 一 个 持久 性 Sink 发 送 到 HDFS， 以 及 流 数 据 
Sink。 流 数据 Sink 将 事件 发 送 到 Storm 或 Spark Streaming 之 类 的 系统 ， 然 后 
进行 数据 流 分 析 。 持 久 性 Sink 为 了 达到 持久 性 可 能 会 使 用 File Channel， 但 
是 对 于 数据 流 Sink 来 说 ， 主 要 需求 可 能 是 实现 最 大 否 吐 量 。 男 外 ， 流 数据 输 
出 的 时 候 ， 可 以 接受 事件 丢失 ， 而 Memory Channel 具有 最 好 用 、 性 能 最 佳 
的 特点 ， 所 以 最 好 的 选择 是 Memory Channel。 











Sizing Channel 配置 Flume agent 时 ， 经 常会 遇 到 是 增加 还 是 减少 Channel， 或 者 如 何 设 定 
Channel 容量 的 问题 。 以 下 为 一 些 简 单 的 指导 意见 。 


5， 


Memory Channel 

在 单一 节点 上 ， 要 限制 Memory Channel 的 数量 。 不 用 说 ， 单 一 节点 上 配置 的 Memory 
Channel 越 多 ， 每 个 Channel 可 用 的 内 存 就 越 少 。 注 意 ， 一 个 Memory Channel 能 包含 多 
个 数据 源 ， 而 且 能 被 多 个 Sink 抓 取 数据 。Sink 速度 通常 比 相 应 的 数据 源 慢 ， 或 者 相反 ， 
因此 应 当 让 单个 Channel 多 连接 较 慢 的 组 件 。 存 在 不 同 流 水 线 时 ， 每 个 布点 上 应 该 设置 
更 多 Memory Channel， 表 明 通 过 流水 线 输 送 的 数据 要 么 各 不 相同 ， 要 么 被 输送 到 不 同 
的 位 置 。 

File Channel 

当 File Channel 只 支持 将 事件 写 入 一 个 驱动 器 时 ， 应 该 配置 多 个 File Channel， 以 利用 
更 多 磁盘 。 既 然 File Channel 支持 将 事件 写 入 多 个 驱动 器 ， 其 至 是 同一 驱动 器 的 多 个 文 
件 ， 那 么 使 用 多 个 File Channel 并 不 会 带 来 性 能 优势 。 再 说 一 遍 ， 在 一 个 节点 上 配置 多 
个 Channel 的 原因 是 存在 不 同 的 流水 线 。 然 而 ， 对 于 Memory Channel， 配 置 Channel 时 
也 应 该 考虑 一 个 节点 上 可 用 的 内 存量 。 至 于 File Channel， 当 然 需要 考虑 可 用 的 磁盘 空 
间 。 


Channel 大 小 

记 住 ，Channel 是 缓存 区 ， 不 是 存储 区 ， 它 的 主要 功能 是 在 数据 全 部 输送 到 Sink 之 前 存 
储 数据 。 通 常 来 讲 ， 缓 存 区 一 定 要 足够 大 ， 这 样 Sink 才能 从 Channel 中 抓 取 配置 批量 
大 小 的 数据 。 如 果 Channel 达到 了 最 大 容量 ， 那 么 就 很 可 能 需要 更 多 的 Sink， 或 者 需要 
通过 更 多 节点 进行 号 入 。 如 果 Sink 的 数量 已 经 达到 最 大 ， 那 么 Channel 的 容量 变 大 不 
会 有 什么 帮助 。 实 际 上 ， 容 量 更 大 的 Channel 反而 可 能 造成 不 良 影 响 ， 比 如 ， 非 常 大 的 
Memory Channel 存在 垃圾 回收 ， 结 果 会 导致 整个 agent 的 速度 变 慢 。 


定位 Flume 瓶 颈 
























































Flume 有 很 多 配置 方法 。 因 为 选择 太 多 ， 所 以 开始 时 可 能 会 应 接 不 暇 。 但 是 ， 之 所 以 存在 
这 么 多 选择 ， 原 因 在 于 Flume 流水 线 是 基于 各 种 网 络 和 设备 而 创建 的 。 对 于 Flume 的 性 能 
问题 ， 这 里 列 出 了 需要 考虑 的 几 点 因素 。 
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。 节点 间 延 迟 








批量 数据 需要 在 网 络 中 产生 一 个 来 回 ， 才 能 从 客户 端 提交 到 数据 源 。 如 果 一 批 的 处 理 量 
很 小 ， 那 么 较 高 网 络 延迟 会 对 性 能 造成 不 良 影 响 。 使 用 多 线程 或 者 较 大 的 批 处 理 量 有 助 








于 缓解 该 问题 。 


。 节点 间 吞 吐 量 





通过 网 络 传输 的 数据 量 存在 一 定 的 限制 。 无 法 增加 网 络 带宽 时 ， 可 以 考虑 使 用 Flume 的 








压缩 来 增加 吞吐 。 
。 线程 数 


使 用 Flume 时 ， 某 些 情况 可 以 利用 多 线程 提高 性 能 。 一 些 Flume 数据 源 支 持 多 线程 ， 

















在 其 他 一 些 情况 下 ， 可 以 通过 配置 agent 来 增加 多 个 数据 源 。 
。 Sink 数 


HDFS 由 多 个 驱动 器 组 成 。 一 个 HDFS Sink 一 次 只 能 写 入 一 个 磁头 (spindle)。 如 先前 


所 述 ， 使 用 多 个 Sink 写 入 数据 能 够 提高 性 能 
。 Channel 

















如 果 使 用 File Channel， 则 应 该 了 解 写 入 磁盘 的 性 能 限制 。 我 们 也 讲 过 ， 一 个 File 


Channel 可 以 写 入 多 个 驱动 器 ， 因 此 有 助 于 提高 性 能 。 
。 二 圾 回收 问题 








使 用 Memory Channel 时 ， 可 能 会 遇 到 垃圾 回收 的 问题 。 当 事件 在 Channel 中 的 存储 时 





间 过 长 时 ， 这 种 情况 可 能 会 出 现 。 





2.2.5 Kafka 


Apache Kafka 是 一 种 发 布 -订阅 消 息 的 分 布 式 系 统 ， 能 够 将 消息 归 类 为 不 同 主题 。 应 用 程 
序 能 在 Kafka 上 发 布 信息 ， 或 订阅 主题 进而 接收 特定 主题 下 发 布 的 消息 。Producer 发 布 消 
息 ， 而 Consumer 收集 并 处 理 消 息 。 作 为 分 布 式 系统 ，Kafka 在 集群 中 运行 ， 每 个 市 点 被 称 














为 Broker。 


Kafka 维护 每 个 主题 的 分 区 日 志 。 消 息 会 发 布 到 相应 的 主题 中 ， 每 个 分 区 都 是 一 个 有 序 的 


消息 子 集 。 同 一 个 主题 的 多 个 分 区 能 够 通过 集群 中 的 多 个 Broker 传送 ， 这 种 方法 提高 











了 主 


题 的 容量 与 吞吐 量 ， 使 其 超越 了 单一 机 器 所 能 提供 的 容量 与 吞吐 量 。 消 息 在 分 区 内 被 有 序 





排列 ， 每 个 消息 都 包含 一 个 特定 的 偏 移 量 。Kafka 中 消息 可 以 通过 一 个 包含 主题 、 分 
及 偏 移 量 的 组 合 来 确定 。Producer 能 够 根据 消息 的 主键 选择 消息 应 该 写 入 哪 一 个 分 区 
能 够 简单 地 用 循环 的 方式 ， 让 消息 分 布 在 各 分 区 之 间 。 








区 以 
， 也 





Consumer 会 在 Consumer 组 中 注册 ， 每 个 组 包括 一 个 或 多 个 Consumer， 每 个 Consumer 读 
取 一 个 或 多 个 主题 分 区 。 每 组 中 的 每 条 消息 只 能 传送 给 一 个 Consumer。 但 是 ， 如 果 多 个 组 
订阅 了 同一 个 主题 ， 那 么 每 个 组 都 将 得 到 所 有 的 消息 。 一 个 组 中 包含 多 个 Consumer 有 助 
于 获得 加 载 平衡 (可 以 支持 高 于 单个 Consumer 处 理 能 力 的 吞吐 量 ) 与 高 可 用 性 (如果 一 




















个 Consumer 出 现 错误 ， 它 所 读 取 的 分 区 将 重新 分 配给 组 中 其 他 Consumer)。 
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前 面 已 经 谈 到 ， 对 于 应 用 层面 的 数据 分 类 ， 主 要 单位 是 主题 。 一 个 Consumer 或 Consumer 
组 将 读 取 其 订阅 主题 的 所 有 数据 ， 所 以 如 果 一 个 应 用 只 关注 一 个 数据 子 集 ， 那 么 就 应 该 将 
该 数据 子 集 与 其 他 数据 放 在 两 个 不 同 的 主题 中 。 如 有 果 多 个 信息 集 总 是 一 起 读 取 和 处 理 ， 那 
么 应 该 将 它们 归 在 同一 个 主题 中 。 


不 过 ， 分 区 是 并 行 化 处 理 的 主要 的 单元 。 每 个 分 区 只 能 配对 一 个 服务 器 ， 但 是 一 个 主题 
可 以 与 分 区 总 和 同样 大 。 另 外 ， 每 个 分 区 的 信息 最 多 由 同一 组 中 的 一 个 Consumer 读 取 ， 
所 以 尽管 可 以 通过 增加 Consumer 数量 来 增加 读 取 吞吐 量 ， 但 其 实 主题 中 可 用 分 区 的 数量 
会 带 来 限制 。 因 此 ， 我 们 建议 每 个 市 点 上 分 区 的 数量 至 少 与 集群 中 服务 器 的 数量 一 样 多 ， 
为 以 后 几 年 的 增长 作出 准备 。 实 际 上 ， 每 个 主题 可 以 包含 几 百 个 分 区 ， 这 里 并 不 存在 任 
何 缺 陷 。 


Kafka 存储 了 预先 配置 时 长 范围 内 (通常 为 几 周 或 几 个 月 ) 的 所 有 消息 ， 而 且 对 于 每 个 
Consumer 读 取 的 信息 只 保留 最 后 一 条 消息 的 偏 移 量 。 因 此 ， 用 户 可 以 从 最 近 一 次 正确 的 偏 
移 量 开始 ， 重 新 读 取 主题 分 区 ， 进 而 从 错误 中 恢复 。 用 户 也 可 以 将 消息 队列 回 滴 ， 然 后 重 
新 读 取信 息 。 在 解决 bug 以 及 其 他 问题 时 , “回溯 ”特点 会 非常 有 用 。 如 果 只 存储 一 段 时 
间 内 的 所 有 消息 ， 不 跟踪 记录 每 个 Consumer 和 消息 的 确认 ， 那 么 Kafka 能 够 扩展 到 10000 
多 个 Consumer， 支 持 它们 的 非 频 繁 批量 读 (如 MapReduce 任务 ) ， 甚 至 是 在 吞吐 量 非 常 高 
的 情况 下 ， 也 能 保持 较 短 的 延迟 。 传 统 的 信息 Broker 则 跟踪 用 户 的 确认 消息 ， 通 常 需要 在 
内 存 中 存储 所 有 未 收 到 答复 的 信息 。 如 果 用 户 数量 比较 多 ， 或 者 读 取 批 数据 的 用 户 数量 比 
较 多 ， 就 会 导致 交换 ， 使 性 能 严重 降低 。 

以 下 为 Kafka 的 常见 用 途 。 


。 Kafka 能 取代 应 用 架构 中 的 传统 信息 Broker 或 者 信息 队列 ， 用 于 分 离 服务 。 

。 Kafka 最 常用 于 高 速 活动 流 ， 如 网 站 点 击 流 (website clickstream)、 度 量 (metrics) 以 及 
日 志 (logging)。 

。 Kafka 也 常用 于 流 数据 处 理 。 它 可 以 同时 用 作 信 息 流 的 来 源 和 输送 目的 位 置 (数据 流 任 
务 在 目的 位 置 记录 其 他 系统 读 取 的 结果 )。 第 7 章 会 讲解 相关 的 例子 。 


1. Kafka 对 容错 的 支持 
每 个 主题 分 区 都 能 复制 到 多 个 Broker， 进 而 获得 连续 的 服务 ， 而 且 在 Broker 出 现 错误 时 
不 会 丢失 数据 。 对 于 每 个 分 区 ， 一 个 复制 分 区 被 设 定 为 leader， 而 其 他 复制 分 区 被 设 定 为 
follower。leader 完成 所 有 的 读 写 操作 。follower 作为 保险 备份 使 用 :如果 leader 出 现 错误 ， 
那么 将 从 其 他 同步 的 复制 分 区 中 选择 一 个 作为 新 的 leader。 如 果 一 个 follower 的 复制 操作 
与 leader 的 复制 操作 相隔 时 间 不 是 太 久 ， 那 么 就 可 以 认为 该 follower 与 leader 同步 。 


写 人 数据 时 ，Producer 可 以 选择 让 所 有 的 同步 分 区 都 反馈 写 人 操作 的 确认 消息 ， 或 者 是 只 
让 leader 反馈 ， 或 者 根本 不 等 待 确认 消息 。Producer 等 待 的 确认 消息 越 多 ， 就 越 能 保证 在 
出 现 错误 时 不 丢失 写 入 的 数据 。 但 是 ， 如 果 可 靠 性 不 是 主要 考虑 因素 ， 那 么 等 待 的 确认 消 
息 越 少 ， 获 得 的 吞吐 量 就 越 高 。 管 理 者 也 能 设 定 同步 复制 分 区 数量 的 最 小 国 值 一 一 如 果 低 
于 该 限度 ， 要 求 所 有 同步 复制 分 区 都 反馈 确认 消息 的 写 人 操作 将 被 拒绝 。 这 种 方法 提供 了 
额外 的 保证 ， 因 为 信息 不 会 被 意外 地 只 写 入 单一 的 Broker， 这 种 情况 下 如 有 果 Broker 出 现 错 
误 ， 数据 可 能 会 丢失 。 












































































































































































































































54 | 第 2 章 
图 灵 社 区 会 员 largelove(largelove@163.com) 专 享 尊重 版 权 


邮 


注意 ， 如 果 网 络 在 消息 发 送 之 后 、 收 到 确认 消息 之 前 出 现 错误 ， 那 么 Producer 无 法 检查 消 
息 是 否 已 经 写 和 人 Broker。Producer 需要 决定 是 冒 着 重复 的 风险 重新 发 送 消息 ， 还 是 冒 着 丢 
失 数 据 的 风险 跳 过 。 


读 取 数据 时 ， 用 户 只 能 读 取 提交 的 消息 (committed message) ， 也 就 是 写 入 所 有 复制 分 区 
的 消息 。 这 表明 用 户 不 必 担 心意 外 读 取 会 在 Broker 出 现 错误 后 消失 的 数据 。 


Kafka 保证 Producer 发 送 到 特定 主题 分 区 的 所 有 消息 ， 都 会 按照 发 送 顺序 写 入 分 区 。 用 户 
看 到 的 消息 会 按照 发 送 顺序 排列 。 如 果 用 复制 因子 N 来 定义 一 个 分 区 ， 那 么 N-1 个 市 点 的 
一 个 错误 不 会 引起 任何 数据 的 丢失 。 


根据 用 户 的 配置 ，Kafka 能 够 支持 至 少 一 次 、 至 多 一 次 与 有 且 只 有 一 次 的 传输 语义 。 


。 如 果 Consumer 在 处 理 完 消息 之 后 再 增加 当前 的 偏 移 量 (默认 设置 )， 那 么 一 个 
Consumer 可 能 会 在 数据 处 理 之 后 、 增 加 偏 移 量 之 前 出 现 错误 。 这 样 一 来 ， 一 个 新 的 
Consumer 将 从 最 近 一 次 的 偏 移 量 处 开始 重新 读 取消 息 ， 消 息 至 少 会 被 处 理 一 次 ， 但 是 
可 能 出 现 重复 。 

。 如 果 Consumer 先 增加 偏 移 量 ， 再 处 理 消息 ， 那 么 Consumer 可 能 会 在 增加 偏 移 量 之 后 、 
处 理 数 据 之 前 出 现 错误 。 这 种 情况 下 ， 新 的 Consumer 将 从 新 的 偏 移 量 中 读数 据 ， 跳 过 
已 经 被 读 取 但 是 未 出 现 错误 的 Consumer 处 理 过 的 消息 。 信 息 最 多 被 处 理 一 次 ， 但 是 可 
能 会 丢失 数据 。 

。 如 果 Consumer 使 用 一 个 两 阶段 的 事务 来 保证 处 理 数 据 和 增加 偏 移 量 同时 发 生 ， 信 息 将 
仅 处 理 一 次 。 两 阶段 的 事务 性 能 损耗 较 大 ， 所 以 最 好 在 批 处 理 类 型 的 Consumer 中 而 不 
是 流 式 处 理 时 使 用 。Camus 是 一 个 随后 将 要 讨论 的 Hadoop Consumer， 包 含 了 有 且 只 
一 次 处 理 的 语义 一 一 通过 Mapper 同时 将 数据 与 偏 移 量 写 入 HDFS 中 ， 如 果 Mapper 出 现 
错误 ， 两 者 将 同时 移 除 。 


回顾 Kafka 的 高 可 用 性 (High Availability，HA) 保证 ， 我 们 还 需要 再 明确 一 点 ， 即 可 以 
在 多 个 数据 中 心 使 用 Kafka。 这 种 部 署 方式 将 一 个 集群 作为 另 一 个 集群 的 Consumer。 正 是 
这 种 消息 复制 机 制 保证 了 所 有 Consumer 的 高 可 用 性 。 

2. Kafka 与 Hadoop 

Kafka 是 一 种 通用 的 信息 Broker， 并 不 专门 用 于 将 数据 写 入 Hadoop。 但 是 ， 有 一 些 用 法 合 
并 了 两 种 系统 。 一 种 用 法 涉及 从 Kafka 中 提取 数据 ， 并 且 将 数据 存储 到 HDFS 中 ， 用 于 离 
线 处 理 。 比 如 ， 追 踪 网 站 上 的 点 节 流 活动 时 ， 用 户 可 以 使 用 Kafka 发 布 站 点 活动 ， 如 网 页 
浏览 与 搜索 。 实 时 仪表 板 (dashboard) 或 者 实时 监控 器 (monitor) 可 以 获取 这 些 信息 ， 同 
样 存储 到 HDFS 中 ， 并 用 于 离线 分 析 与 报告 。 


另 一 个 常用 的 用 法 是 实时 流 数据 处 理 。Kafka 作为 数据 产 ， 为 Spark Streaming 或 Storm 提 

供 一 个 可 靠 的 信息 流 〈 详 见 第 7 章 )。 

一 个 常见 的 问题 是 ， 要 不 要 使 用 Kafka 或 Flume 将 日 志 数 据 或 其 他 流 数 据 源 采集 到 Hadoop 

中 。 跟 一 贯 的 情形 一 样 ， 这 主要 取决 于 需求 。 

。 Flume 是 一 种 更 完整 的 Hadoop 数据 采集 方法 ， 提 供 了 良好 的 支持 ， 可 以 将 数据 写 入 
Hadoop 中 (包括 HDFS、HBase 与 Solr)。Flume 是 基于 配置 设 定 的 ， 所 以 Hadoop 管理 
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员 能 够 部 署 和 使 用 Flume， 而 无 需 编写 任何 代码 。 将 数据 写 入 HDFS 时 ，Flume 能 处 理 
很 多 常见 的 问题 ， 如 可 靠 性 、 最 佳 文件 大 小 、 文 件 格式 、 更 新 源 数据 以 及 分 区 。 

。 Kafka 是 一 种 具备 高 可 用 性 与 高 性 能 的 可 靠 数据 源 。 如 果 要 求 涉及 容错 信息 的 传输 、 信 
息 重 放 或 者 大 量 的 潜在 Consumer， 那 么 Kafka 会 成 为 极 佳 的 选择 。 但 是 ， 这 也 表明 用 
户 将 开发 自己 的 Producer 与 Consumer， 而 不 是 使 用 已 经 存在 的 数据 源 与 Sink。 


比较 来 看 ，Flume 与 Kafka 似乎 是 互补 的 。Kafka 提供 一 种 具有 高 吞吐 量 的 灵活 可 靠 输出 ， 
而 Flume 提供 使 用 方法 更 简单 的 数据 源 、 拦 截 器 以 及 Hadoop 集成 。 因 此 同时 使 用 两 者 效 
果 更 好 。 

Flume 包括 一 个 Kafka 数据 源 、Kafka Sink 以 及 Kafka Channel。 这 些 能 够 将 事件 从 Kafka 
发 送 到 Flume Sink (如 HDFS、HBase 与 Solr), 或 者 从 Flume 数据 源 (如 Log4j 与 Netcat) 
发 送 到 Kafka。 你 甚至 可 以 使 用 Kafka， 通 过 可 靠 的 Channel 来 加 强 Flume 的 功能 。 


Flume 的 Kafka 数据 源 是 一 种 Kafka Consumer， 能 够 从 Kafka 中 读 取 数据 ， 并 发 送 到 
Flume Channel 中 。 接 下 来 ， 数 据 通过 Flumed 拓扑 结构 继续 传输 。 配 置 数 据 源 很 简单 ， 
只 需 设 置 主题 、Kafka 使 用 的 ZooKeeper 服务 器 以 及 Channel。 数 据 源 允 许 调 整 发 送 到 
Channel 的 批 数 据 的 大 小 。 使 用 较 小 的 批 处 理 量 ， 延 迟 更 低 ; 使 用 较 大 的 批 处 理 量 ,吞吐 
量 更 高 ， 而 且 降 低 了 CPU 的 使 用 率 。 


从 Kafka 中 读 取 数据 时 ，Flume 默认 使 用 groupId fume。 向 同一 个 groupId 增加 多 个 Flume 
数据 源 ， 每 个 Flume agent 都 将 得 到 一 个 信息 子 集 ， 而 且 能 够 增加 吞吐 量 。 另 外 ， 如 果 其 
中 一 个 数据 源 出 现 错误 ， 那 么 其 他 数据 源 将 重新 调整 ， 所 以 能 够 继续 采集 信息 。Flume 的 
Kafka 数据 源 是 可 靠 的 。 数 据 源 、Channel、Sink 或 者 agent 出 现 错误 ， 数 据 并 不 会 丢失 。 


Flume 的 Kafka Sink 是 一 个 Kafka 的 Producer， 会 将 数据 从 Flume Channel 发 送 到 Kafka。 
配置 Kafka Sink 需要 设置 主题 以 及 Kafka Broker 的 列表 。 与 Kafka Source 类 似 ， 调 整 
Kafka Sink 的 批 处 理 大 小 可 以 提高 吞吐 量 或 降低 延迟 。 


Flume 的 Kafka Channel 合并 了 Producer 和 Consumer。 当 Flume 数据 源 将 信息 发 送 到 
Kafka Channel 时 ， 这 些 事件 会 发 送 到 Kafka 主题 中 。 每 个 批 处 理 数据 都 会 发 送 到 不 同 的 
Kafka 分 区 ， 所 以 写 和 操作 将 达到 负载 平衡 。 当 Kafka Sink 从 Channel 中 读 取 数据 时 ， 事 
件 将 由 Kafka 进行 采集 。Kafka Channel 是 高 度 可 靠 的 。 当 服务 器 出 现 错误 时 ， 只 要 Kafka 
Channel 与 一 个 配置 正确 的 Kafka 服务 器 一 起 使 用 ， 就 能 够 保证 不 丢失 信息 ， 甚 至 不 会 引 
起 显著 延迟 。 


流 数据 在 这 里 并 不 适用 。 批 处 理 通常 能 够 提高 否 吐 量 ， 而 且 更 适合 压缩 的 列 式 存储 ， 如 
Parquet。 如 果 要 从 Kafka 中 批量 加 载 数 据 ， 我 们 推荐 使 用 Camus (http://github.com/ 
linkedin/camus)。 这 是 一 种 独立 的 开放 性 数据 源 项 目 ， 能 够 将 数据 从 Kafka 中 采集 到 HDFS 
中 。Camus 使 用 起 来 很 灵活 ， 而 且 相 对 来 说 容易 维护 。Camnus 的 特点 是 可 以 从 ZooKeeper 
中 自动 查找 Kafka 主题 ， 将 数据 转化 为 Avro 与 Avro 模式 管理 ， 以 及 自动 分 区 。 在 任务 设 
置 阶段 ，Camus 提取 主题 列表 与 开始 时 信息 的 ID， 进 而 提取 ZooKeeper 中 的 数据 ， 然 后 
将 Map 任务 中 的 主题 分 片 。 每 个 Map 任务 都 从 Kafka 中 提取 信息 ， 按 照 时 间 改 将 信息 写 
入 HDFS 目录 。 当 任务 成 功 结束 时 ，Camus Map 任务 只 能 将 信息 转移 到 最 终 输出 位 置 。 因 
此 ， 这 里 可 以 使 用 Hadoop 的 推断 执行 ， 而 不 存在 将 信息 重复 写 和 人 HDFS 的 风险 。 
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图 2-12 是 一 个 整体 框图 ， 能 帮助 你 理解 Camus 的 执行 方式 。 
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2-12: Camus 执行 数据 流 图 





图 中 主要 包括 以 下 几 步 。 


。 A: 设置 步骤 时 从 ZooKeeper 中 提取 Broker URL 以 及 主题 信息 。 

: 设置 步骤 时 将 主题 与 偏 移 量 信息 持久 性 地 存储 到 HDFS 中 ， 以 供 任务 读 取 。 
任务 读 取 设置 步 又 时 的 持久 化 信息 。 

: 任务 从 Kafka 中 采集 事件 。 

















-OTDR 








式 ， 这 里 用 的 是 Avro 文件 格式 。 
。 下 : 当 任 务 开 始 清理 时 ， 将 数据 从 临时 位 置 转移 到 最 终 位 置 。 
。 G: 任务 输出 相关 活动 信息 的 审计 计数 。 
。 互 ; 作为 清理 阶段 ， 读 取 所 有 任务 的 审计 计数 。 
。 I: 作为 清理 阶段 ， 将 持久 化 的 报告 返还 Kafka。 





















































: 任务 将 数据 写 入 HDFS 中 的 临时 位 置 ， 并 由 用 户 自 定义 的 解码 器 定义 数据 的 存储 格 


如 果 想 要 使 用 Camus， 你 可 能 需要 自己 编写 解码 器 ， 将 Kafka 信息 转化 为 Avro。 这 与 


Flume HDFSEventSink 中 的 序列 化 器 相同 。 


2.3 ”数据 导出 





本 章 主要 关注 数据 如 何 导 入 Hadoop， 在 Hadoop 上 设计 应 用 时 ， 这 块 内 容 通常 会 花费 更 多 





的 时 间 。 当 然 ， 将 数据 导出 Hadoop 也 很 重要 ， 而 且 数据 导入 Hadoop 时 要 考虑 的 
用 于 此 。 以 下 是 从 Hadoop 导出 数据 的 一 些 常 见 场景 与 考虑 因素 。 


。 将 数据 从 Hadoop 导出 到 RDBMS 或 数据 仓库 











因素 也 适 


一 个 常见 的 模式 是 使 用 Hadoop 将 传输 的 数据 采集 到 数据 仓 中 一 一 换 句 话说 ， 使 用 
Hadoop 进行 ETL。 大 多 数 情况 下 ， 传 输 的 数据 都 可 以 使 用 Sqoop 采集 到 目标 数据 库 中 。 
但 是 ， 如 果 不 选 择 Sqoop， 也 可 以 先 将 文件 简单 地 从 Hadoop 中 提取 出 来 ， 然 后 使 用 特 
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定 于 供应 商 的 采集 工具 采集 。 使 用 Sqoop 时 应 该 尽量 使 用 特定 于 数据 库 的 连接 器 。 无 论 
使 用 哪 种 方法 ， 都 应 该 避免 数据 路 的 过 量 加 载 。 在 Hadoop 中 容易 管理 的 数据 容量 在 传 
统 数 据 库 中 可 能 并 不 容易 管理 。 给 自己 和 数据 库 管 理 员 行 个 方便 ,一定 要 认真 考虑 目标 
系统 的 加 载 情 况 。 另外 ， 当 Hadoop 发 展 成 熟 而 且 弥 补 了 与 传统 数据 库 管理 系统 之 间 的 
容量 差距 时 ， 我 们 会 看 到 越 来 越 多 的 数据 从 这 些 传统 数据 库 转移 到 Hadoop 中 ， 而 不 必 
将 数据 从 Hadoop 中 导出 。 

导出 数据 供 外 部 程序 分 析 

与 上 一 点 相同 ，Hadoop 是 一 种 很 强大 的 工具 ， 能 够 处 理 和 汇总 数据 ， 然 后 将 数据 输入 
外 部 分 析 系 统 和 应 用 中 。 这 些 情况 更 适合 使 用 简单 的 文件 传输 ， 比 如 使 用 hadoop fs 
-get 命令 或 者 可 挂 载 的 HDFS 方法 。 

在 Hadoop 集群 间 移 动 数 据 

在 Hadoop 集群 之 间 转 移 数据 是 很 常见 的 ， 例 如 为 了 错误 恢复 或 在 多 个 集群 之 间 移 动 
数据 。 这 种 情况 下 ， 可 以 使 用 DistCp 为 Hadoop 集群 之 间 的 数据 传输 提供 简单 有 效 的 
方法 。DistCp 使 用 MapReduce 来 执行 大 量 数据 的 并 行 化 传输 。 数 据 源 或 者 目标 位 置 
不 是 HDFS 文件 系统 时 ， 也 可 以 使 用 DistCp。 举 个 例子 ， 将 数据 转移 到 云 系统 [比如 
Amazon 的 Simple Storage System (S3) ] 就 是 一 个 越 来 越 常见 的 需求 。 
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现在 ， 似 乎 有 越 来 越 多 的 工具 可 以 将 数据 输入 或 输出 Hadoop， 但 是 就 像 本 章 讲 到 的 ， 如 
果 仔 细 考 虑 自己 的 需求 ， 那 么 找到 正确 的 方法 并 不 是 很 困难 。 其 中 一 些 考 虑 因素 如 下 。 





数据 源 系 统 (从 该 系统 将 数据 采集 到 Hadoop 中 ) 或 者 目标 系统 (从 Hadoop 中 提取 数 
据 到 其 中 )。 

采集 或 提取 数据 的 频率 。 

采集 或 提取 的 数据 类 型 。 

数据 处 理 或 评估 的 方式 。 














ea 








理解 可 用 工具 的 作用 与 限制 以 及 自己 的 特定 需求 ， 你 就 可 以 设计 出 可 伸缩 的 稳定 架构 。 
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前 面 的 章节 里 讨论 了 Hadoop 数据 建 模 方面 需要 考虑 的 若干 问题 ， 以 及 如 何在 Hadoop 上 导 
入 和 导出 数据 。 数 据 导 入 Hadoop， 完 成 数据 建 模 之 后 ， 我 们 自然 希望 能 够 访问 和 利用 这 
些 数据 。 本 章 会 探讨 Hadoop 上 已 有 的 数据 处 理 框 架 。 


和 Hadoop 的 其 他 问题 一 样 ， 在 数据 处 理 上 ， 我 们 需要 先 了 解 可 以 选择 的 框架 ， 然 后 再 确 
定 使 用 哪 一 种 。 了 解 这 些 选 择 ， 我 们 才能 清楚 地 知道 如 何 挑 出 最 适合 任务 的 工具 ， 不 过 这 
会 让 新 手感 到 困惑 。 本 章 的 目的 就 是 帮助 你 基于 自己 的 实际 场景 做 出 正确 的 选择 。 

本 章 会 先 介绍 主要 的 执行 引擎 ， 也 就 是 在 Hadoop 集群 上 直接 执行 数据 处 理 任务 的 框架 。 

这 包括 成 熟 的 MapReduce 框架 ， 以 及 新 一 代数 据 流 引 擎 ， 如 Spark。 

接 下 来 ， 我 们 会 介绍 更 高 一 层 的 抽象 工具 ， 如 Hive、Pig、Crunch 和 Cascading。 相 比 更 低 

一 层 的 框架 (如 MapReduce) 而 言 ， 这 些 工 具 的 设计 目标 是 提供 更 易 用 的 抽象 接口 。 

对 于 每 一 个 数据 处 理 框架 ， 我 们 都 会 谈 到 以 下 几 个 方面 ; 

。 框架 概述 

。 框架 使 用 示例 

。 框架 使 用 场景 描述 

。 关于 该 框架 的 更 多 资源 介绍 

通过 阅读 本 章 ， 你 可 以 了 解 几 种 数据 处 理 框架 ， 但 无 法 做 到 精通 。 本 章 的 目标 是 让 读者 可 

以 自信 地 为 实际 场景 选择 合适 的 工具 。 如 果 想 了 解 更 多 细节 ， 我 们 会 提供 深入 研究 特定 工 

具 的 相关 资料 。 
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无 共享 架构 

在 了 解 特定 框架 之 前 ， 你 需要 注意 这 些 框 架 的 共同 点 : 它们 会 尽 可 能 地 实现 
成 一 个 无 共享 的 架构 。 在 分 布 式 系统 中 ， 无 共享 架构 是 指 系统 中 的 每 一 个 节 
点 完全 独立 于 其 他 任何 节点 ， 这 样 就 不 会 在 共享 资源 上 存在 瓶颈 。 无 共享 党 
源 中 的 资源 是 指 物理 层次 的 资源 ， 如 内 存 、 磁 盘 和 CPU 等 。Hadoop 的 处 理 
框架 使 用 的 是 分 布 式 的 HDFS 存储 ， 而 不 是 集中 式 存储 。 无 共享 资源 也 指 无 
共享 数据 。 在 这 类 框架 中 ， 每 一 个 节点 处 理 数据 的 一 个 确定 的 子 集 ， 而 不 需 
要 访问 共享 的 数据 。 无 共享 架构 具有 良好 的 扩展 性 。 因 为 无 共享 资源 ， 所 以 
新 加 入 的 节点 就 能 够 扩 增 系统 的 资源 ， 并 且 不 会 引发 资源 竞争 。 这 些 框 架 也 
具有 故障 包容 的 特点 ， 每 个 节点 彼此 独立 ， 因 此 不 存在 单 节点 故障 。 某 节点 
发 生 故 障 后 ， 系 统 能 够 快速 恢复 。 读 者 在 阅读 本 章 时 ， 可 以 注意 到 ， 每 个 框 
架 在 细节 上 有 诸多 不 同 ， 但 有 一 点 是 类 似 的 : 它们 都 遵从 了 无 共享 架构 的 设 
计 原 则 。 


































































































3.1 MapReduce 


MapReduce 模型 ， 最 早出 现在 Google 公司 Jeffrey Dean 和 Sanjay Ghemawat 的 论文 “MapReduce: 
Simplified Data Processing on Large Clusters” (http://static.googleusercontent.com/media/ 
research.google.com/en/us/archive/mapreduce-osdi04.pdf) 中 。 这 篇 论文 描述 了 一 种 用 于 海量 
数据 处 理 和 生成 的 编程 模型 及 其 实现 。 该 编程 模型 提供 了 一 种 并 行 处 理 大 数据 集 的 应 用 开 
发 方式 ， 减 少 了 许多 开发 分 布 式 并 发 应 用 时 常常 会 遇 到 的 编程 问题 。 该 模型 描述 的 无 共享 
架构 提供 了 一 种 高 扩展 性 的 系统 实现 方式 ， 并 对 单 点 故障 或 进程 失败 提供 了 容错 机 制 。 



































3.1.1 MapReduce 概 述 


MapReduce 编程 范式 将 数据 处 理 拆 分 成 了 两 个 基本 的 阶段 ，Map 阶段 与 Reduce 阶段 。 每 
个 阶段 的 输入 和 输出 均 为 键 值 对 。 


Map 阶段 对 应 的 进程 称 为 Mapper。Mapper 是 (JVM 上 运行 的 ) Java 进程 ， 通 常 在 要 处 理 
的 数据 所 在 的 节点 上 启动 。 利 用 数据 的 本 地 性 是 MapReduce 的 一 个 很 重要 的 基本 原则 。 对 
于 大 数据 集 而 言 ， 将 处 理 进程 分 配 至 包含 数据 的 节点 上 ， 比 通过 网 络 传 输 数 据 高 效 得 多 。 
在 Mapper 中 进行 的 数据 处 理 类 型 ,通常 有 解析 、 变 换 和 过 滤 。 当 Mapper 处 理 完 输入 数据 
之 后 ,会 给 下 一 阶段 (Sort & Shuffle) 产生 键 值 对 。 


在 Sort & Shuffle 阶段 ， 数 据 会 排序 和 分 区 。 本 章 会 在 后 面 详细 介绍 相关 内 容 。 分 区 后 的 
有 序数 据 将 会 通过 网 络 发 送 给 Reducer 所 在 的 JVM，Reducer 会 读 取 这 些 按照 键 进行 分 区 
的 有 序数 据 。Reducer 拿 到 这 些 记录 ，reduceg 函数 就 可 以 对 数据 执行 各 种 操作 了 。 不 过 ， 
Reducer 通常 会 写 出 部 分 数据 ， 或 者 聚合 到 HDFS 或 HBase 的 存储 中 。 


总 结 来 说 ，JVM 有 两 类 ， 一 类 读 取 无 序 的 数据 ， 一 类 处 理 分 区 后 的 有 序数 据 。 我 们 稍 后 会 
讲述 MapReduce 的 其 他 相关 内 容 ， 图 3-1 展示 的 是 我 们 刚才 描述 过 的 内 容 。 
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3-1: MapReduce 的 Sort & Shuffle 
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看 介绍 MapReduce 处 理 的 典型 特点 。 























Mapper 以 键 值 对 的 形式 处 理 输入 数据 ， 并 且 每 次 只 能 处 理 一 个 键 值 对 。Mapper 的 个 数 
是 由 框架 而 非 开发 人 员 决 定 的 。 

Mapper 将 键 值 对 作为 输出 传递 给 Reducer， 但 是 不 能 将 数据 转发 给 其 他 的 Mapper。 
Reducer 同样 不 能 与 其 他 的 Reducer 通信 。 

Mapper 和 Reducer 通常 不 会 使 用 太 多 的 内 存 ， 一 般 会 将 JVM 的 堆 大 小 设置 为 相对 较 小 
的 值 。 

虽然 并 非 总 是 如 此 ， 但 是 一 般 来 讲 ， 每 一 个 Reducer 都 会 有 单个 输出 数据 流 。 在 默认 
情况 下 ， 这 是 一 个 文件 合集 ， 命 名 形式 类 似 于 part-r-00000、part-r-00001 等 ， 存 在 单个 
HDFS 目录 下 。 
Mapper 与 Reducer 的 输出 均 会 写 入 磁盘 。 如 果 Reducer 输出 的 结果 仍 需 额 外 的 处 理 ， 那 
么 整个 数据 集 将 会 写 和 人 磁盘 中 , 再 读 取 一 遍 。 这 种 模式 被 称 作 同步 屏障 (synchronization 
barrier) 。 这 也 是 使 用 MapReduce 迭代 式 数据 处 理 比 较 低 效 的 主要 原因 。 



































在 深入 探讨 MapReduce 的 底层 细 市 之 前 ， 还 有 一 个 要 点 需要 注意 ;MapReduce 有 两 大 弱 
， 使 它 不 适用 于 迭代 算法 。 其 一 是 启动 时 间 较 长 。 即 使 MapReduce 过 程 几乎 什么 都 不 
做 ， 启 动 也 需要 大 概 10~30 秒 。 其 二 是 MapReduce 会 频繁 写 入 磁盘， 以 便 容 错 。 本 章 后 面 
会 介绍 Spark， 我 们 会 发 现 这 些 磁盘 IO 并 不 是 必需 的 。 如 图 3-2 所 示 ， 在 一 般 的 数据 处 理 









































过 程 中 ，MapReduce 的 确 进行 了 多 次 的 磁盘 读 写 操作 。 
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3-2: MapReduce I/O 


MapReduce 的 一 个 强大 之 处 在 于 ， 它 不 仅仅 是 由 Map 和 Reduce 任务 构成 的 ， 还 包括 协同 
工作 的 多 个 组 件 。 每 个 组 件 均 可 以 由 开发 人 员 扩展 。 因 此 ， 为 了 充分 利用 MapReduce 的 处 
理 能 力 ， 了 解 MapReduce 的 基本 组 成 细节 是 很 有 必要 的 。 下 面 ， 我 们 会 深入 探讨 Map 阶 
段 的 细节 内 容 ， 向 这 一 目标 努力 。 


关于 MapReduce 的 详细 介绍 (包括 各 种 算法 的 实现 ) ， 有 大 量 资料 可 供 参 考 。 一 些 不 错 的 
资源 包括 : 《Hadoop 权威 指南 》《Hadoop 硬 实践 》 以 及 《MapReduce 设计 模式 》。 


1. Map 阶 段 

接 下 来 ， 我 们 会 深入 了 解 一 个 MapReduce 任务 在 Map 阶段 涉及 的 主要 组 件 。 

InputFormat MapReduce 任务 通过 InputFormat 类 访问 其 数据 。 这 个 类 实现 了 两 个 重要 的 方法 。 

。 getSpLits() 
该 方法 实现 的 是 将 输入 分 布 到 多 个 Map 进程 的 具体 逻辑 。 最 常用 的 InputFormat 是 
TextInputFormat， 它 会 为 每 个 数据 块 生 成 一 个 输入 分 片 ， 并 将 对 应 数据 块 的 位 置 发 送 
给 Map 任务 。 框 架 会 针对 每 个 分 片 启动 一 个 Mapper 执行 处 理 。 正 因 如 此 ， 开 发 人 员 常 
常 假定 MapReduce 任务 中 ，Mapper 的 个 数 就 是 待 处 理 数据 集 的 数据 块 个 数 。 


这 一 方法 决定 了 Map 进程 的 个 数 ， 以 及 Map 进程 执行 涉及 的 节点 。 不 过 ，MapReduce 
任务 的 开发 人 员 可 以 重 写 这 一 方法 ， 从 而 对 要 读 取 的 数据 获得 完全 的 控制 。 举 例 来 说 ， 
HBase 代码 中 的 NMapInputFormat 就 允许 用 户 直接 设置 执行 任务 的 Mapper 个 数 。 

。 getReader() 
这 一 方法 为 Map 任务 提供 了 Reader 机 制 ， 赋 予 了 Map 访问 待 处 理 数 据 的 能 力 。 因 为 开 
发 人 员 可 以 重 写 这 一 方法 ， 所 以 MapReduce 能 够 支持 任意 数据 格式 。 只 要 能 够 提供 一 个 
将 读 入 的 数据 转化 成 Writable 对 象 的 方法 ， 就 可 以 使 用 MapReduce 框架 处 理 该 类 数据 。 

RecordReader RecordReader 类 读 取 数据 块 的 内 容 ， 并 将 键 值 对 的 记录 返回 到 Map 任务 。 

大 多 数 的 RecordReader 实现 起 来 极为 简单 : 初始 化 RecordReader 实例 ， 使 用 的 是 需要 读 取 

的 数据 块 在 文件 中 的 起 始 位 置 ， 以 及 该 文件 在 HDFS 中 的 URI 地 址 。 寻 址 到 这 一 起 始 位 置 
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之 后 ， 每 次 调用 nextKeyValue() 方法 都 会 查找 下 一 个 行 分 隔 符 ， 并 读 取 下 一 条 记录 。 这 种 
模式 参见 图 3-3。 



































Reducer 1 任务 寻 址 定位 /Reducer 1 开始 读 操 作 的 位 置 
及 
驼 
Ea 
Reducer 2 寻 址 定位 Reducer 1 停止 读 操 作 ，Reducer 2 开始 读 操作 的 位 置 
CN 
起 
EE 
Ea 
Reducer 3 寻 址 定位 Reducer 2 停止 读 操 作 , Reducer 3 开始 读 操作 的 位 置 | Reducer 3 停止 读 操作 的 位 置 
Cm 
起 
到 
ES 














3-3: MapReduce 中 的 RecordReader 





MapReduce 框架 以 及 这 个 生态 系统 中 的 其 他 项 目 提供 了 许多 文件 格式 的 RecordReader 实 
现 ， 包 括 带 分 隔 符 的 纯 文本 、SequenceFileg、Avro、Parquet， 甚 至 还 有 不 会 读 取 任 何 数据 
的 RecordReader 将 键 值 对 传递 给 Mapper 后 ，NMapInputFormat 返回 的 是 NullwWritable。 
这 样 做 的 目的 是 保证 map() 函数 会 被 调用 一 次 。 


Mapper 的 setup() 在 Map 任务 的 map 方法 调用 之 前 ，Mapper 的 setup() 方法 会 首先 被 调用 
一 次 。 这 一 方法 可 以 使 开发 人 员 初 始 化 Map 进程 中 会 用 到 的 变量 和 文件 句柄 。setup() 最 
常用 的 作用 是 从 配置 对 象 中 获取 配置 项 的 值 。 


Hadoop 中 的 所 有 组 件 都 可 以 通过 Configuration 对 象 配置 ， 该 对 象 包含 一 些 键 值 对 ， 会 
在 任务 执行 时 传递 给 Map 和 Reduce JVM。 该 对 象 的 内 容 可 以 参见 job.xml。 默 认 情 况 
下 ，Configuration 对 象 包含 有 集群 的 每 个 JVM 成 功 执行 所 需 的 信息 ， 如 NameNode 的 
URI 地 址 ， 以 及 协调 任务 的 进程 (如果 Hadoop 在 MapReduce v1 的 框架 上 运行 ， 该 进程 为 
JobTracker; 如 果 MapReduce 在 YARN 之 上 运行 ,该 进程 为 Application Manager) 。 

在 设置 阶段 ，Map 和 Reduce 任务 开始 执行 之 前 ， 可 以 向 Configuration 对 象 中 添加 新 的 
值 。 任 务 开始 执行 之 后 ，Mapper 和 Reducer 可 以 随时 访问 Configuration 对 象 ， 以 获取 这 
些 值 。 以 下 是 一 个 setup() 方法 的 简单 示例 ， 它 获取 了 Configuration 中 的 值 ， 以 填充 成 员 


变量 : 
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public String foobar; 
public final String FOO_BAR_CONF = "custom.foo.bar.conf"; 


@override 

public void setup(Context context) throws IOException { 
foobar = context.getConfiguration().get(FOO_BAR_CONF); 

} 


注意 ， 放 入 Configuration 对 象 中 的 值 ， 均 可 在 JobTracker (MapReduce v1) 或 Application 
Manager (YARN) 中 读 取 。 一 般 来 讲 ， 二 者 都 会 有 一 个 网 页 界面 ， 且 它们 的 地 址 无 安全 性 
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控制 ， 任 何人 均 可 访问 。 因 此 ， 我 们 不 建议 把 敏感 信息 (如 密码 ) 传递 到 Configuration 
对 象 中 。 一 个 推荐 的 做 法 是 传递 密码 文件 在 HDFS 上 的 URI 地 址 ， 这 样 就 可 以 拥有 合适 的 
访问 权限 控制 。 执 行 MapReduce 的 用 户 拥有 有 效 的 权限 时 ，Map 和 Reduce 任务 自然 就 可 
以 读 取 该 文件 并 获得 相应 的 密码 。 


Mapper 的 map() Mapper 的 核心 就 是 map() 方法 。 即 使 不 需 定制 ， 直 接 使 用 Map 任务 中 的 默 
认 组 件 ， 你 仍然 需要 实现 一 个 map() 方法 。 该 方法 拥有 三 种 输入 : 键 (key)、 值 (value) 
及 上 下 文 (context)。 其 中 ，key 和 value 均 可 以 通过 RecordReader 获得 ， 它 们 包含 map() 
方法 需要 处 理 的 数据 。context 对 象 为 Mapper 更 多 行为 的 实现 提供 了 支持 : 将 输出 发 送 给 
Reducer， 从 Configuration 对 象 中 读 取 值 ， 计 数 器 自 增 以 汇报 Map 任务 进度 。 


当 Map 任务 输出 数据 ， 交 由 Reducer 处 理 时 ， 输 出 的 数据 会 首先 缓存 和 排序 。MapReduce 
试图 在 内 存 中 对 其 进行 排序 ， 内 存 大 小 由 io.sort.mb 的 配置 参数 确定 。 如 果 内 存 中 的 缓冲 
区 过 小 ， 输 出 的 数据 将 无 法 在 内 存 中 进行 排序 操作 。 此 时 ， 数 据 会 吐 到 Map 任务 所 在 节点 
的 本 地 磁盘 上 ， 在 磁盘 上 排序 。 


Partitioner Partitioner 实现 了 在 Reducer 之 间 进 行 数据 分 区 的 逻辑 。 默 认 的 Partitioner 
处 理 逻 辑 会 获取 键 ， 得 出 标准 的 哈 希 函数 散 列 ， 除 以 Reducer 数 。 余 数 则 决定 这 条 记录 的 
目标 Reducer。 这 样 可 以 保证 数据 在 Reducer 之 间 是 平均 分 布 的 ， 进 而 确保 Reducer 能 够 在 
相同 的 时 间 启 动 ， 而 且 在 几乎 同一 时 间 执 行 结束 。 不 过 ， 如 果 Reducer 处 理 的 过 程 需 要 保 
证 特定 的 值 一 起 处 理 ， 那 么 你 需要 重 写 默认 值 ， 实 现 一 个 自 定 义 的 Partitioner。 


二 次 排序 就 属于 这 种 情况 。 假 设 有 一 个 时 间 序 列 ， 比 如 股票 市 场 的 价格 信息 ， 你 可 能 希望 
让 每 个 Reducer 处 理 指 定 股票 的 所 有 交易 ， 并 按照 交易 的 时 间 顺 序 排序 ， 以 了 解 股价 与 时 
间 的 相关 性 。 在 这 个 场景 下 ， 可 以 把 股票 编码 与 时 间 的 组 合 (ticker-time) 定义 为 key。 使 
用 默认 的 Partitioner 就 会 将 同一 个 股票 的 多 条 记录 发 送 到 不 同 的 Reducer ， 所 以 此 时 就 需 
要 实现 一 个 自 定义 的 Partitioner， 以 确保 只 按照 股票 代码 (不 适用 时 间 惟 ) 对 记录 进行 
分 区 ， 进 而 发 送 给 Reducer。 


下 面 是 这 种 Partitioner 实现 的 简单 示例 : 






































































































































public static class Custompartitioner extends Partitioner<Text, Text> { 
@Override 
public int getPpartition(Text key, Text value, int numpartitions) { 
String ticker = key.toString().substring(5); 
return ticker.hashCode() % numpartitions; 
} 
} 


我 们 可 以 从 key 中 提取 股票 代码 ， 并 根据 其 值 (而 不 是 整个 key) 的 散 列 形成 分 区 。 


Mapper 的 cleanup() cleanup() 方法 在 map() edig 这 里 通常 要 
执行 文件 的 关闭 操作 ， 以 及 最 后 的 报告 和 总 结 ， 比 如 将 最 终 状 态 写 入 日 志 中 。 


Combiner MapReduce 中 的 Combiner 可 以 提供 一 种 简单 的 方法 ， 减 少 Mapper 与 Reducer 间 
的 数据 传输 。 让 我 们 回顾 一 下 单词 统计 的 经 典 例子 。 Mapper 处 理 每 一 行 的 
输入 ， 并 拆 分 成 单独 的 词 ， 然 后 在 输出 的 每 个 词 后 面 加 上 “1” (表示 当前 的 计数 )， 如 下 
所 示 。 
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the => 
Cat => 
and => 
the => 
hat => 


如 果 定 义 了 combine() 方法 ， 你 就 可 以 对 Mapper 产生 的 值 进行 聚合 操作 了 。 这 一 方法 会 在 
Mapper 执行 的 节点 上 执行 ， 所 以 这 种 聚合 行为 减少 了 之 后 通过 网 络 发 送 给 Reducer 的 输出 。 
Reducer 仍然 需要 把 不 同 Mapper 的 结果 聚合 到 一 起 ， 不 过 这 些 数据 会 明显 减少 。 有 一 点 是 
非常 重要 的 ， 对 于 Combiner 是 否 会 执行 到 ， 我 们 是 无 法 控制 的 。 因 此 ，Combiner 的 输出 
应 当 与 Mapper 的 输出 格式 相同 ， 因 为 无 论 哪 一 种 输出 ，Reducer 都 会 对 其 处 理 。 另 外 ， 要 
注意 Mapper 的 输出 是 有 序 的 ， 因 此 可 以 假定 Combiner 的 输入 也 是 有 序 的 。 


在 我 们 的 例子 中 ，Combiner 的 输出 如 下 。 


and => 1 
cat =>-1 
hat => 1 
the => 2 


PPAPAPAPp 


























2. Reducer 
Reduce 任务 没有 Map 任务 那么 复杂 ， 不 过 还 是 有 儿 个 需要 注意 的 组 件 。 


Shuffle 在 Reduce 阶段 正式 开始 之 前 ，Reduce 任务 会 将 Mapper 的 输出 从 Map 节点 复制 
到 Reduce 节点 。 每 一 个 Reducer 都 需要 从 多 个 Mapper 聚合 数据 ， 所 以 我 们 要 让 每 一 个 
Reducer 按照 Map 任务 的 方式 读 取 本 地 的 数据 。 经 由 网 络 的 数据 复制 是 不 可 或 缺 的 ， 因 此 
集群 内 高 吞吐 的 网 络 可 以 显著 提高 处 理性 能 。 这 也 是 Combiner 高 效 可 用 的 主要 原因 。 在 
通过 网 络 发 送出 去 之 前 ， 聚 合 Mapper 的 结果 可 以 显著 地 加 速 这 一 阶段 。 


Reducer 的 setup() Reducer 的 setup() 步骤 与 map 的 setup() 非常 相似 。 这 一 方法 在 
Reducer 开始 处 理 单个 记录 之 前 执行 ， 通 常用 来 初始 化 变量 和 文件 句柄 。 


Reducer 的 reduce() 与 Mapper 的 map() 国 数 相似 ，reduce() 方法 就 是 Reducer 进行 绝 大 多 
数 数据 处 理 的 地 方 。 然 而 在 输入 方面 ，Reducer 的 reduce() 有 如 下 几 个 明显 的 不 同 点 。 


。 key 是 有 序 的 。 

。 参数 从 一 个 value 变 成 了 多 个 values (从 一 次 处 理 一 个 值 变 为 处 理 多 个 值 )。 对 于 一 个 
key 来 讲 ， 输 入 会 包含 这 个 key 对 应 的 所 有 值 ， 允 许 据 此 进行 任何 形式 的 聚合 ， 也 可 以 
处 理 当前 key 的 所 有 值 。 有 一 点 非常 重要 ， 那 就 是 一 个 key 及 其 对 应 的 值 不 会 分 散 到 多 
个 Reducer 上 。 这 显而易见 ， 不 过 开发 人 员 经 常会 因为 发 现 某 个 Reducer 比 其 他 的 耗 时 
久 而 感到 吃惊 。 通 常 来 讲 ， 这 是 因为 与 其 他 Reducer 相 比 ， 某 个 key 的 Reducer 明显 有 
多 得 多 的 值 需要 处 理 。 这 种 分 区 后 的 数据 倾斜 是 引发 性 能 问题 极为 常见 的 原因 。 有 经 验 
的 MapReduce 开发 人 员 在 保证 聚合 结果 正确 的 同时 ， 会 投入 大 量 的 精力 确保 数据 分 区 
后 在 Reducer 上 均衡 。 

。 在 map() 方法 中 ， 调 用 context.write(K，V) 方法 可 以 将 输出 放 入 缓存 区 ， 缓 存 区 
中 的 数据 稍 后 会 被 排序 ， 然 后 被 Reducer 读 取 。 在 reduce() 方法 中 ， 调 用 context. 
write(Km，V) 会 将 输出 发 送 给 outputFileFormat， 稍 后 我 们 会 讨论 后 者 。 
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Reducer 的 cLeanup() 与 Mapper 的 cleanup() 方法 类 似 。Reducer 的 cleanup() 方法 在 所 有 
记录 处 理 完毕 之 后 才 会 调用 。 在 这 里 可 以 关闭 文件 、 将 状态 写 入 日 志 。 


OutputFormat InputFormat 处 理 输 入 数据 的 读 取 ， 而 0utputFormat 负责 数据 的 格式 化 和 写 
入 输出 数据 (通常 是 写 入 到 HDFS)。 与 输入 格式 相 比 ， 定 制 化 的 输出 格式 相对 少 一 些 。 主 
要 原因 在 于 开发 人 员 难 以 控制 输入 数据 ， 因 为 输入 数据 来 自 遗 留 系统 ， 以 特定 的 格式 存 
在 。 0 一 个 角度 来 讲 ， 输 出 数据 是 可 以 标准 化 的 ， 有 几 种 不 错 的 格式 可 以 用 来 作为 答 
出 格式 。 总 会 有 人 使 用 与 众 不 同 的 新 格式 ， 但 通常 来 讲 ， 选 择 一 种 已 有 的 输出 格式 就 能 满 
足 需求 。 2 仑 了 大 多 数 常 见 的 数据 格式 ， 并 说 明了 各 自 的 适用 场景 。 


OutputFormat 类 的 工作 与 InputFormat 稍 有 不 同 。 就 大 文件 来 讲 ，InputFormat 会 将 输出 分 
片 ， 以 分 配给 多 个 Map 任务 ， 每 个 Map 处 理 输入 文件 的 一 个 子 集 。 对 于 0utputFormat 类 
来 讲 ， 一 个 Reducer 只 会 写 一 个 文件 ， 因 此 在 HDFS 上 ， 你 可 以 看 到 一 个 Reducer 对 应 一 
个 输出 文件 。 文 件 会 以 类 似 于 part-r-00000 的 方式 命名 ， 文 件 名 中 的 数字 会 随 着 Reducer 任 
务 数目 的 增加 而 递增 。 

有 一 个 地 方 很 有 意思 ， 需 要 注意 : 如 果 设 有 Reducer， 那 么 Mapper 会 调用 0utputFormat。 
这 种 情况 下 ， 输 出 文件 会 命名 为 part-m-0000N, r 被 杰 换 成 了 m。 这 只 是 命名 的 一 般 形式 。 
不 过 ， 不 同 的 0utputFormat 命名 的 方式 可 能 会 不 同 。 举 例 来 说 ，Avro 的 0utputFormat 会 
使 用 part-m-00000.avro 的 命名 形式 。 

































































3.1.2 MapReduce 示 例 

在 本 章 介 绍 的 这 些 Hadoop 数据 处 理 方式 里 面 ，MapReduce 需要 编写 的 代码 最 多 。 接 下 来 
的 例子 看 起 来 会 有 些 宛 长 ， 如 果 要 在 本 章 讲 清 MapReduce 的 一 切 ， 我 们 至 少 还 需要 20 页 
的 篇 幅 。 在 这 里 ， 我 们 来 关注 一 个 非常 简单 的 示例 : 关联 和 过 滤 图 3-4 中 的 两 个 数据 集 。 






































Foo 


FoolD: Long BarlD: Long 
FooVal: Int A BarVal: Int 
FooBarlD: Long 局 


3-4 ”关联 及 过 滤 示 例 中 的 数据 集 


这 个 例子 的 数据 处 理 要 求 包括 以 下 几 点 。 


。 通过 Foo 中 的 FooBarld 与 Bar 中 的 BarId， 将 Foo 关联 到 Bar 中 。 

。 过 滤 Foo， 移 除 FooVal 大 于 用 户 指定 的 值 (fooValueMaxFilter) 的 全 部 记录 。 

。 过 滤 关 联 产 生 的 表 ， 移 除 FooVal 与 BarVal 的 和 大 于 另外 一 个 用 户 指 定 参 数 
(joinValueMaxFilter) 的 全 部 记录 。 

。 使 用 计数 器 〈counter) 跟踪 移 除 的 记录 。 


MapReduce 任务 通常 需要 先 创建 一 个 Job 实例 ， 并 执行 它 。 如 下 是 对 应 的 代码 示例 。 


public ;int run(String[] args) throws Exception { 
String inputFoo = args[0]; 
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} 


String inputBar = args[1]; 

String output = args[2]; 

String fooValueMaxFilter = args[3]; 

String joinValueMaxFilter = args[4]; 

int numberOfReducers = Integer.parseInt(args[5]); 


Job job = Job.getInstance(); © 


job.setJarByClass(JoinFilterExampleMRJob.class); 
job. setJobName("JoinFilterExampleMRJob"); © 


Configuration config = job.getConfiguration(); 
config.set(F00_TABLE_CONF，inputFoo); © 
config.set(BAR_TABLE_CONF, inputBar); 
config.set(FOO_VAL_ MAX_CONF, fooValueMaxFilter); 
config.set(JOIN VAL_MAX_CONF, joinValueMaxFilter); 


job.setInputFormatClass(TextInputFormat.class); 


TextInputFormat.addInputPath(job, new Path(inputFo0)); @ 


TextInputFormat.addInputPath(job, new Path(inputBar)); 
job.setOutputFormatClass(TextOutputFormat.class); 
TextOutputFormat.setOutputPath(job, new Path(output)); 


job.setmapperClass(JoinFiltermapper.class); © 
job.setReducerClass(JoinFilterReducer.class); 
job.setPpartitionerClass(JoinFilterpartitioner.class); 
job.setOutputKeyClass(NullWritable.class); 
job.setOutputValueClass(Text.class); 
job.setMapOutputKeyClass(Text.class); 
job.setMapOutputValueClass(Text.class); 


job.setNumReduceTasks(number0OfReducers); © 


job.waitForCompletion(true); @ 
return 0; 


现在 来 深入 探讨 任务 配置 的 代码 。 

@ 这 是 Job 对 象 的 构造 函数 ， 包 含 执行 MapReduce 任务 所 需 的 全 部 信息 。 

名 虽然 这 不 是 强制 性 的 ， 但 你 最 好 给 任务 命名 。 这 样 可 以 保证 任务 在 日 志 或 Web 界面 上 
容易 找到 。 

全 正如 先前 讨论 的 ， 配 置 任务 时 ， 可 以 创建 一 个 Configuration 对 象 ， 这 样 就 可 以 在 
所 有 的 Map 和 Reduce 任务 中 利用 它 的 值 。 在 这 里 ， 我 们 将 用 于 记录 过 着 的 值 放 到 


Configuration 中 ， 任 务 执行 之 后 ， 它 们 可 以 作为 参数 通过 用 户 来 定义 ， 而 不 是 硬 编码 
到 Map 和 Reduce 任务 中 。 


@ 在 这 上 
整个 目录 。 除 非 使 月 
































有 我们 设置 输入 和 输出 目录 。 这 里 的 输入 可 以 有 多 个 ， 它 们 可 以 是 文件 ， 也 可 以 是 
日 了 特定 的 OutputFormat， 否 则 输出 路 径 一 般 只 有 一 个 ， 且 必须 是 目 


录 ， 这 样 每 个 Reducer 就 可 以 在 这 个 目录 下 创建 自己 的 输出 文件 。 
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@ 代码 的 这 个 部 分 会 配置 任务 中 需要 使 用 的 类 ， 包 括 Mapper、Reducer、Partitioner 以 及 
InputFormat 和 OutputFormat。 这 个 例子 只 需要 定义 Mapper、Reducer 和 Partitioner。 
后 面 我 们 会 介绍 它们 几 个 各 自 的 实现 代码 。 注 意 ，0OutputFormat 使 用 Text 作为 值 的 输 
出 格式 ， 使 用 Nultwritable 作为 key 的 输出 格式 。 这 是 因为 我 们 只 对 最 终 输 出 的 值 感 
兴趣 。key 的 值 将 会 被 忽略 ， 不 会 写 入 到 Reducer 的 输出 目录 中 。 


@ Mapper 的 个 数 通 过 InputFormat 控制 ， 而 我 们 需要 直接 指定 Reducer 的 个 数 。 如 果 设 置 
Reducer 的 个 数 为 0， 那 么 我 们 就 会 得 到 只 含 Map 阶段 的 任务 。 默 认 的 Reducer 个 数值 

在 集群 的 层面 定义 ， 不 过 一 般 情 况 下 ， 开 发 人 员 会 重新 配置 这 个 值 ， 因 为 他 们 更 清楚 有 具 
体 任务 对 应 的 数据 量 和 分 区 情况 

@ 最 后 ， 我 们 将 MapReduce 任务 提交 给 集群 ， 等 待 运行 的 结果 (成 功 或 者 失败 )。 

接 下 来 ， 我 们 来 关注 Mapper。 


public class JoinFiltermapper extends 
mapper<LongWritable, Text, Text, Text> { 






























































boolean isFooBlock = false; 
int fooValrilter; 


public static final int FOO_ID_INX = 0; 
public static final int FOO VALUE INX = 1; 
public static final int FOO_BAR_ID_INX = 2; 
public static final int BAR_ID_INX = 0; 
public static final int BAR VALUE INX = 1; 


Text newKey = new Text(); 
Text newValue = new Text(); 


@Override 
public void setup(Context context) { 


Configuration config = context.getConfiguration(); © 
fooValFilter = config.getInt(JoinFilterExampleMRJob.FOO_VAL_MAX_CONF, -1); 


String fooRootPath = 
config.get(JoinFilterExampleMRJob.FOO_TABLE_CONF); @ 
FileSplit split = (FileSplit) context.getInputSplit(); 
if (split.getpath().toString().contains(fooRootPath)) { 
isFooBlock = true; 
} 
} 


@Override 
public void map(LongWritable key, Text valuye, Context context) 


throws IOException, InterruptedException { 


String[] cells = StringUtils.split(valuye.toString(), "|"); 


if (isFooBLock) { © 
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int fooValue = Integer.parseInt(cells[FO0_VALUE_INX]); 


if (foovaLue <= foovaLFiLter) { @ 
newKey.set(cells[FOO_BAR_ID_INX] + "|" 
+ JoinFilterExampleMRJob.FOO_SORT_FLAG); 


newValue.set(cells[FOO_ID_INX] + "|" + cells[FOO_VALUE_INX]); 
context.write(newKey, newValue); 
} else { 
context.getCounter("Custom", "FooValueFiltered").increment(1); © 
} 
} else { 
NewKey.set(cells[BAR_ID INX] + "|" + 


JoinFilterExampleMRJob.BAR_SORT_FLAG); @ 
newValue.set(cells[BAR_VALUE_INX]); 
context.write(newKey, newValue); 

} 
} 
} 


@ 如 前 所 述 ，Mapper 的 setup() 用 于 从 Configuration 对 象 中 读 取 预先 定义 的 值 。 在 这 上 段 
代码 中 ， 我 们 获取 用 于 过 着 的 foovalMax 变量 的 值 ， 在 后 续 的 map() 方法 中 会 用 到 它 。 


@ 每 一 个 Map 任务 会 读 取 对 应 数据 块 的 数据 ， 这 里 的 数据 块 要 么 来 自 Foo， 要 么 来 自 Bar 
数据 集 。 我 们 需要 区 分 这 两 个 数据 ， 才 能 确保 只 过 着 Foo 表 的 数据 ， 因 此 我 们 会 将 这 一 
信息 加 入 到 输出 的 key 中 一 一 Reducer 会 使 用 输出 的 key 关联 操作 数据 集 。 在 这 部 分 代 
码 中 ，setup() 方法 识别 出 当前 任务 处 理 的 数据 块 。 在 之 后 的 map() 方法 中 ， 我 们 会 使 
用 这 个 值 来 区 分 Foo 和 Bar 数据 集 的 处 理 逻 辑 。 


@ 在 这 里 我 们 使 用 先前 定义 的 数据 块 标识 符 。 
@ 此 处 使 用 foovValMax 的 值 过 滤 。 


加 这 里 需要 最 后 指出 一 点 ， 那 就 是 在 MapReduce 中 自 增 计数 器 的 方法 。 计 数 器 会 有 组 名 
和 计数 器 名 ， 二 者 均 可 以 通过 Map 和 Reduce 任务 设置 并 执行 自 增 操作 。 计 数 器 会 在 任 
务 执行 结束 时 进行 汇报 ， 而 且 在 任务 的 执行 过 程 中 ， 各 种 UI 也 会 跟踪 计数 器 的 值 。 因 
此 ， 使 用 计数 器 是 向 用 户 提供 任务 执行 进度 的 好 办 法 ， 同 时 还 可 以 给 开发 人 员 提供 一 些 
信息 ， 方 便 调 试 和 排除 故障 。 


@ 注意 我 们 对 输出 key 的 设置 首先 是 用 来 关联 数据 集 的 值 ， 然 后 是 一 个 “| ”分 隔 符 ， 
接 下 来 是 记录 标记 (如果 来 自 Bar 数据 集 则 标 为 A， 来 自 Foo 则 标 为 B)。 这 就 意味 着 ， 
当 Reducer 获取 到 一 个 key 和 一 组 值 并 进行 关联 的 时 候 ， 来 自 Bar 数据 集 的 值 会 先 于 来 
自 Foo 的 值 出 现 (key 是 有 序 的 )。 要 执行 关联 操作 ， 我 们 只 需 将 Bar 数据 集 存 放 在 内 存 
中 ， 直 到 Foo 的 值 开始 到 达 。 如 果 没 有 记录 标记 将 这 些 值 排序 ， 那 么 在 关联 的 时 候 ， 就 
需要 将 整个 数据 集 全 部 放 入 内 存 。 

接 下 来 我 们 集中 讨论 Partitioner。 这 里 需要 实现 一 个 自 定义 的 Partitioner， 这 是 因为 我 

门 使 用 的 key 包含 用 于 关联 的 key， 以 及 用 于 帮助 排序 的 标记 。 我 们 要 做 的 就 是 按照 ID 分 

区 ， 从 而 保证 用 于 关联 的 同一 个 key 对 应 的 两 条 记录 能 够 出 现在 同一 个 Reducer 中 ， 不 管 

它们 之 前 来 自 Foo 数据 集 还 是 Bar 数据 集 。 对 于 关联 来 说 ， 这 是 必需 的 ， 因 为 单个 Reducer 
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需要 关联 同一 个 key 的 所 有 值 。 为 此 ， 我 们 只 基于 ID 进行 分 区 ， 整 个 组 合 key 如 下 所 示 。 
public class JoinFilterPpartitioner extends Partitioner<Text, Text>{ 
@Override 
public int getPpartition(Text key, Text value, int numberOfReducers) { 
String keyStr = key.toString(); 
String pk = keyStr.substring(0, keyStr.length() - 2); 


return Math.abs(pk.hashCode() % numberOfReducers); 
} 


} 


在 Partitioner 中 ， 我 们 从 Map 输出 的 key 中 取出 关联 所 用 的 key， 仅 将 key 的 这 一 部 用 
于 分 区 方法 ， 如 前 所 述 。 
接 下 来 ， 让 我 们 关注 Reducer， 了 解 它 是 怎样 关联 两 个 数据 集 的 。 


public class JoinFilterReducer extends Reducer<Text, Text, NullWritable, Text> { 





int joinValFilter; 
String currentBarId = 
List<Integer> barBufferList = new ArrayList<Integer>(); 


LL 
3? 


Text newValue = new Text(); 


@Override 
public void setup(Context context) { 

Configuration config = context.getConfiguration(); 

joinValFilter = config.getIint(JoinFilterExampleMRJob.JOIN_VAL MAX_CONF, -1); 
} 


@Override 
public void reduce(Text key, Iterable<Text> values, Context context) 
throws IOException, InterruptedException { 


String keyString = key.toString(); 
String barId = keyString.substring(0, keyString.length() - 2); 
String sortFLag = keyString.substring(keyString.Length() - 1); 


if (!currentBarId.equals(barId)) { 
barBufferList.clear(); 
currentBarId = barId; 


} 


if (sortFlag.equals(JoinFilterExampleMRJob.BAR_SORT_FLAG)) { © 
for (Text value : values) { 
barBufferList.add(Integer .parseInt(value.toString())); © 
} 
} elsef 
if (barBufferList.size() > 0) { 
for (Text value : values) { 
for (Integer barValue : barBufferList) { © 
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String[] fooCells = StringUtils.split(valuye.toString(), "|"); 


int foovaLue = Integer.parseInt(fooCells[1]); 
int sumValue = barValue + fooValue; 


if (sumValue < joinValFilter) { 


newValue.set(fooCells[0] + "|" + barId + "|" + sumValue); 
context.write(NullWritable.get(), newValue); 
} elsef 
context.getCounter("custom", "joinValueFiltered").increment(1); 
} 
} 


} 
} else { 
System.out.println("Matching with nothing"); 
} 
} 
} 
} 


@ 因为 我 们 使 用 了 一 个 标记 辅助 排序 ， 所 以 首先 需要 根据 给 定 的 关联 用 key 从 Bar 数据 集 
中 获取 全 部 的 记录 。 


名 在 拿 到 需要 的 Bar 数据 集 数据 后 ， 将 其 存储 到 内 存 中 的 链表 里 。 


全 处 理 Foo 数据 集 时 ， 我 们 会 通过 循环 的 方式 遍历 Bar 数据 集 ， 以 执行 关联 操作 。 这 就 是 
一 个 谋 套 循环 关联 (nested-loops join ) 。 











3.1.3 MapReduce 使 用 场景 


正如 上 例 所 述 ，MapReduce 是 一 个 较为 底层 的 框架 。 开 发 人 员 需 要 时 刻 注意 每 个 操作 的 细 
节 ， 此 处 的 代码 涉及 各 种 设置 (setup) 和 引用 (boilerplate)。 因 此 ，MapReduce 的 代码 通 
常会 有 很 多 bug， 维 护 成 本 较 高 。 
不 过 ，MapReduce 在 本 质 上 适合 处 理 这 些 问 题 : 文件 压缩 '、 分 布 式 数据 复制 、 记 录 行 级 别 
的 数据 验证 ， 等 等 。 另 外 ， 在 某 些 情况 下 ， 使 用 MapReduce 编写 代码 可 以 更 好 地 利用 输入 
数据 的 属性 ， 从 而 提高 处 理性 能 。 举 例 来 说 ， 如 果 我 们 明确 地 知道 输入 数据 是 有 序 的 ， 那 
么 就 可 以 在 数据 集合 并 时 ， 利 用 MapReduce 对 其 优化 ， 而 这 是 更 高 一 级 的 抽象 模型 无 法 做 
到 的 。 

只 要 能 适应 相应 的 编程 模型 ， 有 经 验 的 Java 开发 人 员 都 应 当 使 用 MapReduce。 如 果 你 处 理 
的 问题 在 本 质 上 可 以 转化 成 MapReduce 任务 ， 或 者 在 控制 执行 细节 上 有 显著 优点 ， 则 尤其 
如 此 。 











































































































注 1: 我 们 会 在 第 4 章 详细 谈论 压缩 
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3.2 Spark 


2009 年 ， 加 州 大 学 伯克利 分 校 (UC Berkeley) AMPLab 实验 室 的 Matei Zaharia 带领 团队 
对 MapReduce 框架 进行 了 改进 研究 。 他 们 的 结论 是 : 虽然 MapReduce 模型 非常 A 
数据 处 理 ， 但 是 该 框架 受 限于 一 个 硬 1 区 的 到 如 党 居 通 并 不 适用 于 其 他 应 用 。 举 例 来 说 ， 
在 返 代 式 机 器 学 习 和 交互 式 数据 分 析 应 用 中 ， 多 次 处 理 任务 如 果 能 够 重复 使 用 内 存 中 缓存 
的 数据 集 ， 将 益处 多 多 。MapReduce 将 每 次 任务 执行 结束 时 的 输出 强制 写 和 磁盘， 并 在 下 
次 任务 执行 时 从 磁盘 中 重新 读 入 。 另 外 ， 所 有 任务 均 要 分 成 一 个 Map 和 一 个 Reduce。 如 
果 框 架 能 变 得 更 为 灵活 ， 那 么 模型 也 会 得 到 显著 的 改善 和 优化 。 

从 这 项 研究 中 诞生 了 Spark 项 目 ， 这 个 新 的 大 数据 处 理 模型 改正 了 MapReduce 的 诸多 缺 


点 。 随 着 这 个 项 目 逐 渐 为 人 所 知 ，Spark 已 经 成 为 了 包含 150 名 代码 贡献 者 的 Apache 的 第 
二 大 顶级 项 目 (HDFS 为 第 一 大 顶级 项 目 )。 















































3.2.1 _ Spark 概述 
与 MapReduce 相 比 ，Spark 的 特别 之 处 主要 体现 在 以 下 几 个 方面 。 


DAG 模 型 

回顾 一 下 ，MapReduce 模型 只 有 两 个 处 理 阶 段 : Map 和 Reduce。 使 用 MapReduce 框架 的 
时 候 ， 你 必须 通过 串联 Map 和 Reduce 任务 以 及 减少 任务 形成 完整 的 应 用 。 这 种 复杂 的 任 
务 链 就 是 所 谓 的 有 向 无 环 图 (Directed Acyclic Graphs，DAG) ， 如 图 3-5 所 示 。 


2 


3-5: 有 向 无 环 图 


























在 工作 流 中 ，DAG 会 包含 互相 连接 的 一 系列 操作 。MapReduce 的 DAG 就 是 实现 特定 应 用 
的 一 系列 Map 和 Reduce 任务 。 使 用 DAG 来 定义 Hadoop 应 用 并 非 首 例 ，MapReduce 的 
开发 人 员 也 实现 了 DAG， 而 且 DAG 还 用 到 了 基于 MapReduce 的 更 高 一 层 的 抽象 接口 上 。 
Oozie 甚至 支持 用 户 以 XML 的 形式 定义 MapReduce 任务 的 工作 流 ， 并 使 用 一 个 协调 调度 
的 框架 监控 任务 的 执行 情况 


Spark 扩展 的 是 引擎 本 身 ， 它 从 应 用 逻辑 的 角度 ， 增 加 了 一 些 复杂 的 工具 链 ， 而 不 是 对 
DAG 抽象 层 进行 外 部 扩展 ， 形 成 模型 。 这 样 就 可 以 让 开发 人 员 在 一 个 任务 之 内 编写 复杂 
的 算法 和 数据 处 理 流水 线 ， 并 允许 框架 从 全 局 范围 内 优化 该 任务 ， 从 而 提高 整体 性 能 。 

想 了 解 更 多 关于 Spark 的 内 容 ， 参 见 Apache Spark 的 官网 (http://spark.apache.org/)。 现 在 
暂时 没有 太 多 关于 Spark 的 教材 ， 不 过 由 Holden Karau 等 人 编写 的 《Spark 快速 大 数据 分 
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析 》? 较 全 面 地 介绍 了 Spark。 关 于 Spark 应 用 的 更 多 高 级 用 法 ， 参 见 Sandy Ryza 等 人 编写 
的 《Spark 高 级 数据 分 析 》)。 


3.2.2 Spark 组 件 概述 


在 介绍 Spark 的 示例 之 前 ， 我 们 首先 从 整体 上 了 解 一 下 Spark 的 各 个 组 成 部 分 。 图 3-6 展 





示 的 就 是 Spark 的 主要 组 件 。 








DAG 调 度 器 ( 类 似 于 任务 调度 器 Worker 


队列 规划 器 ) 


详 


驱动 程序 (定义 RDD 
对 象 及 其 关系 ) 


¥ 











Rdd1.join(rdd2). 
groupBy(...) 
filter(..) 

















图 3-6: Spark 组 件 


让 我 们 从 左 到 右 依次 讨论 图 中 的 各 个 组 件 。 


驱动 程序 指 的 是 包含 main 函数 的 代码 ， 它 定义 了 弹性 分 布 式 数据 集 (Resilient 
Distributed Dataset，RDD) 及 其 变换 。RDD 是 Spark 编程 中 主要 的 数据 结构 ， 我 们 会 在 
下 一 小 市 介绍 相关 知识 。 

基于 RDD 的 并 行 操作 会 传递 给 DAG 调度 器 (DAG scheduler) ， 后 者 可 以 优化 代码 ， 并 
产生 一 个 代表 应 用 中 数据 处 理 步骤 的 高 效 DAG。 

最 终 的 DAG 会 发 送 给 集群 管理 器 (cluster manager)。 集 群 管理 器 知晓 Worker 的 信息 、 
已 分 配 的 线程 、 数 据 块 的 位 置 等 ， 具 有 分 配 特定 处 理 任务 到 Worker 的 功能 。 集 群 管 
理 器 还 负责 处 理 Worker 失败 时 DAG 的 回放 。 正 如 之 前 所 提 到 的 ， 集 群 管理 器 可 以 是 
YARN、Mesos 或 者 是 Spark 内 置 的 集群 管理 器 。 
Worker 接受 和 管理 分 配 的 任务 和 数据 。Worker 执行 自身 的 特定 任务 时 ， 并 不 知晓 整个 
DAG， 执 行 的 结果 会 回 传 给 驱动 程序 。 





























3.2.3 Spark 基本 概念 


在 探究 过 着 -关联 -过 着 (filter-join-filter) 这 一 示例 之 前 ， 让 我 们 进一步 讨论 编写 Spark 











E 2: 此 书 己 由 人 民 邮 日 社 出 版 。 一 一 编者 注 
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应 用 时 涉及 的 主要 组 件 。 


1. 弹性 分 布 式 数 据 集 
RDD 是 可 序列 化 元 素 的 集合 ， 这 一 集合 兴 许 可 以 分 区 。 这 个 时 候 RDD 就 会 存储 到 多 个 节 
点 上 。RDD 可 能 位 于 内 存 或 磁盘 。Spark 使 用 RDD 减少 磁盘 IJO， 并 维护 内 存 中 处 理 过 的 
数据 集 ， 无 需 重启 整个 任务 即 可 做 到 对 节点 失败 容错 。 


通常 情况 下 ，RDD 由 Hadoop 的 InputFormat (比如 ，HDFS 上 的 一 个 文件 ) 产生 ， 或 基于 
已 存在 的 RDD， 经 由 变换 操作 得 到 。 通 过 InputFormat 创建 一 个 RDD 的 时 候 ，Spark 会 根 
据 InputFormat 确定 分 区 数目 ， 这 与 MapReduce 中 的 分 片 十 分 类 似 。 如 果 RDD 是 由 变换 
得 到 的 ， 则 有 可 能 对 数据 进行 Shuffte 操作 和 重新 分 区 ， 形 成 任意 数目 的 分 
RDD 存储 它们 的 血缘 关系 ， 即 到 达 当 前 状态 经 历 的 变换 集合 ， 始 于 创建 RDD 所 用 的 第 
一 个 InputFormat。 如 果 数 据 丢失 ，Spark 可 以 根据 血缘 重演 一 系列 的 变换 ， 重 建 丢 失 的 
RDD， 保 证 任务 继续 进行 。 

3-7 经 常用 于 描述 Spark 中 的 DAG。 框 图 内 部 是 RDD 的 分 区 ， 第 二 层 是 RDD 以 及 单 问 
的 任务 链 。 
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3-7 : Spark DAG 








现在 ， 让 我 们 假设 黑色 框图 表示 丢失 的 分 区 ， 如 图 3-8 所 示 。Spark 会 重新 执行 Good 
Replay 框图 对 应 的 任务 ， 以 及 Lost Block 框图 对 应 的 任务 ， 从 而 得 到 需要 的 数据 ， 继 续 执 
行 最 终 步 又 。 


注意 ，RDD 的 类 型 有 许多 种 ， 并 不 是 每 一 个 RDD 上 均 可 执行 所 有 的 变换 。 举 例 来 说 ， 不 
包含 键 值 对 的 RDD 就 无 法 进行 关联 操作 。 
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图 3-8 : 发 生 分 区 丢失 后 的 Spark DAG 


覃 弯 旦 
2. 共享 变量 


Spark 有 两 种 类 型 的 变量 





据 处 理 。 








崩 于 执行 节点 之 间 的 信息 共享 : 广播 (broadcast) 变量 与 累加 器 
(accumulator) 变量 。 广 播 变 量 会 发 送 到 所 有 的 远程 执行 节点 ， 在 这 些 节点 上 可 以 进行 数 











它 与 MapReduce 中 Configuration 对 象 扮演 的 角色 类 似 。 累 加 器 变量 也 会 发 送 到 








远 端 的 执行 节点 ， 不 过 与 广播 变量 不 同 的 是 ， 该 类 变量 可 以 被 执行 器 修改 ， 且 只 能 进行 增 


加 的 操作 。 累 加 器 与 MapReduce 中 


3. SparkContext 


的 计数 器 有 几 分 相似 。 





SparkContext 对 象 代表 到 Spark 集群 的 连接 ， 可 以 用 来 创建 RDD、 广 播 变量 以 及 初始 化 累 


加 器 。 
4. 变换 
变换 是 以 RDD 作为 输入 ， 





产生 另外 一 个 RDD 的 


修改 其 输入 ， 而 是 返回 一 个 更 改 后 的 RDD。Spark 中 的 变换 是 情 ， 








Spark 更 为 智能 地 优化 DAG 图 。 
时 才 会 抛 出 ， 这 与 实际 抛 出 异常 





用 变换 函数 只 会 创建 一 个 带 有 某 一 变换 (作为 其 徊 
有 在 调用 操作 (action) 时 才 会 真正 得 到 完整 

















及 








这 样 做 的 缺点 是 让 调试 变 得 更 为 


函数 。RDD 是 不 可 变 的 ， 


I 缘 的 一 部 分 ) 的 新 RDD。 一 系列 变换 只 
的 执行 。 这 样 做 能 够 提高 Spark 的 性 能 ， 允 许 











因此 变换 不 会 
4 的， 不 会 产生 结果 。 调 

















困 刀 





异常 在 操作 被 调用 





























的 代码 相隔 





置 于 操作 附近 〈 也 就 是 异常 抛 出 的 地 方 )， 而 不 是 变换 的 附近 。 


Spark 中 有 许多 种 变换 。 下 而 


。 map() 























其 远 。 需要 谨 记 的 是 ， 处 理 异常 的 代码 应 当 放 


i 列 出 的 一 些 变换 可 以 让 你 了 解 变 换 函 数 究 竞 是 什么 样 的 。 


map() 对 RDD 的 每 一 个 元 素 应 用 一 个 方法 ， 从 而 产生 一 个 新 的 RDD。 这 与 对 输入 数据 
的 每 一 个 元 素 应 用 MapReduce 的 map() 方法 类 似 。 比 如 : lines.map(s=>s.length) 表示 
输入 一 个 由 多 个 字符 串 构 成 的 RDD ( 即 Lines) ， 输 出 一 个 包含 各 个 字符 串 长 度 的 RDD。 
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。 filter() 
filter() 以 布尔 函数 作为 参数 ， 对 RDD 的 每 一 个 元 素 执 行 该 函数 ， 并 返回 一 个 新 的 
RDD， 只 包含 让 该 函数 返回 true 的 元 素 。 比 如 : lines.filter(s=>(s.length>50)) 返回 
的 RDD 都 有 包含 50 多 个 字符 的 行 。 

。 keyBy() 
keyBy() 的 输入 是 RDD 的 每 个 元 素 ， 输 出 是 新 RDD 中 的 键 值 对 。 比 如 : lines. 
keyBy(s=>s. length) 返回 以 每 行 长 度 为 键 、 每 行内 容 为 值 的 键 值 对 的 RDD。 

。 join() 
join() 将 两 个 键 值 对 类 型 的 RDD 按照 键 进 行 关 联 操作 。 例 如 ， 假 定 有 两 个 RDD: 
lines 和 nore_tines。 二 者 中 的 每 一 项 均 是 一 个 键 值 对 ， 以 行 的 长 度 为 键 、 行 的 内 容 为 
值 。lines.join(more_lines) 返回 每 一 行 的 长 度 ， 以 及 对 应 该 长 度 的 (由 分 别 来 自 lines 
RDD 和 more_lines RDD 的 内 容 构 成 的 ) 一 对 字符 串 。 结 果 集 中 的 元 素 形 如 <Length， 
<line, more_line>>, 























。 groupByKey() 
groupByKey() 对 一 个 RDD 按照 键 进行 分 组 操作 。 比 如 : 在 Lines.groupByKey() 返回 的 
RDD 中 ， 每 个 元 素 都 是 以 行 长 为 键 ， 对 应 行 长 的 一 组 行 作为 值 。 在 第 8 章 中 ， 我 们 会 
使 用 groupByKey() 来 获取 单个 用 户 对 应 的 页 面 浏览 集合 。 

。 sort() 
sort() 对 RDD 排序 ， 返 回 一 个 有 序 的 RDD。 


注意 ， 变 换 包 括 的 函数 与 在 MapReduce 的 Map 阶段 可 以 进行 的 操作 类 似 ， 不 过 有 一 些 卫 
数 ， 比 如 groupByKey()， 属 于 Reduce 阶段 。 

5. Action 
Action 方法 输入 RDD， 执 行 计算 并 返回 结果 给 驱动 程序 。 正 如 之 前 提 到 的 ， 变 换 是 惰性 
的 ， 不 会 在 调用 时 立即 执行 。Action 触发 变换 的 执行 。 计 算 的 结果 可 以 是 集合 、 打 印 到 屏 
幕 的 值 、 保 存 到 文件 中 的 值 或 其 他 类 似 的 结果 。 不 过 ，Action 不 会 返回 RDD。 


3.2.4 _ Spark 的 优点 

接 下 来 ， 让 我 们 列举 说 明 使 用 Spark 的 优点 。 

1. 简单 

与 MapReduce 相 比 ，Spark 的 API 非常 简单 整洁 。 因 此 ， 在 实现 相同 逻辑 的 时 候 ， 本 节 的 
例子 会 比 MapReduce 的 代码 短 许 多 。 不 熟悉 Spark 的 人 也 可 以 很 容易 地 读 懂 这 部 分 代码 。 
API 的 易 用 性 非常 好 ， 几 乎 没有 必要 在 Spark 之 上 进行 高 级 抽象 ， 而 在 MapReduce 之 上 有 
很 多 抽象 ， 如 Hive 或 Pig 等 。 

2. 功能 丰富 

Spark 从 一 开始 就 有 意 打造 一 个 可 扩展 的 、 通 用 的 并 行 处 理 框架 。 它 可 以 支持 流 式 数 据 的 
处 理 框 架 ( 即 所 谓 的 Spark Streaming)， 以 及 图 处 理 引 警 ， 即 GraphX。 因 为 Spark 具有 的 
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强大 灵活 性 ， 所 以 我 们 期 望 未 来 Spark 会 涌现 出 大 量 面 向 特定 需求 的 专用 软件 库 。 


3. 降低 磁盘 I/O 

MapReduce 会 在 Map 阶段 结束 时 将 数据 写 到 本 地 磁盘 ， 在 Reduce 阶段 结束 时 则 写 到 
HDFS 上 。 也 就 是 说 ， 处 理 1TB 的 数据 ， 需 要 写 4TB 数据 到 磁盘 ， 并 通过 网 络 分 发 2TB 
数据 。 当 MapReduce 应 用 有 多 个 任务 串联 在 一 起 的 时 候 ， 情 况 会 更 加 糟糕 。 


Spark 的 RDD 可 以 存储 到 内 存 中 ， 以 多 个 步骤 处 理 ， 不 需要 额外 的 IO 就 可 迭代 。 这 是 因 
为 它 并 不 包含 特定 的 Map 和 Reduce 阶段 ， 通 常情 况 下 ， 数 据 只 是 在 处 理 开 始 时 从 磁盘 上 
读 出 ， 在 有 必要 持久 化 时 写 入 磁盘 。 

4. 存储 

Spark 为 RDD 的 存储 方式 赋予 了 充分 的 灵活 性 。RDD 可 以 存储 到 单个 节点 的 内 存 中 ， 可 
以 存储 在 内 存 中 并 在 多 个 节点 中 存 有 副本 ， 也 可 以 持久 化 到 磁盘 。 记 住 ， 持 久 化 由 开发 者 
控制 。RDD 在 经 历 多 个 变换 步骤 (相当 于 多 个 Map 和 Reduce 阶段 ) 的 过 程 中 ， 可 以 不 写 
任何 数据 到 磁盘 上 。 

5. 多 语言 支持 

Spark 是 使 用 Scala 语言 开发 的 ，Spark 的 API 支持 Java、Scala 和 Python。 这 就 允许 开发 
人 员 使 用 自己 最 为 熟悉 的 语言 进行 Spark 开发 。Hadoop 开发 人 员 通 常 使 用 Java API， 而 
数据 科学 家 通常 更 喜欢 使 用 Python 实现 (这样 就 可 以 配合 Python 强大 的 数值 处 理 库 使 用 
Spark 7 )。 

6. 独立 于 资源 管理 器 

Spark 支持 使 用 YARN 和 Mesos 作为 资源 管理 器 ， 同 时 还 支持 独立 管理 (Standalone) 资 
源 的 模式 。 如 果 未 来 会 有 资源 管理 器 方面 的 升级 和 调整 ，Spark 也 是 可 以 兼容 的 。 同 时 ， 
这 还 意味 着 ， 如 果 开 发 人 员 偏 爱 某 一 种 资源 管理 器 ，Spark 也 不 会 强制 他 们 更 换 。 因 为 每 
个 资源 管理 器 有 各 自 的 优点 和 局 上限， 所 以 这 一 点 还 是 非常 有 用 的 。 

7. 交互 式 shell (REPL) 

Spark 任务 可 以 以 应 用 程序 的 方式 部 署 ， 这 类 似 于 MapReduce 任务 的 执行 方式 。Spark 还 包 
含 一 个 shell (通常 也 称 作 REPL: Read-Eval-Print-Loop)。REPL 允许 开发 人 员 快 速 进行 交 
互 式 数据 开发 ， 而 且 更 方便 验证 代码 。 与 客户 协同 工作 时 使 用 Spark shell， 你 可 以 一 边 思 

问题 ， 一 边 迅速 检查 数据 ， 交 互 式 地 得 到 答案 。shell 还 可 以 用 来 对 程序 进行 验证 和 排 错 。 




























































































3.2.5 ”Spark 示 例 


我 们 先 看 一 段 示例 代码 ， 然 后 再 进行 讲解 。 该 示例 使 用 了 3.1.2 方 中 的 数据 集 ， 并 采用 相 
同 的 方式 处 理 。 


var fooTable = sc.textFile("foo") © 
var barTable = sc.textrFile("bar") 


var fooSpLit = fooTable.map(line => line.split("\\|")) 所 
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var fooFiLtered = fooSplit.filter(cells => cells(1).toInt <= 500) 


var fooKeyed = fooFiltered.keyBy(cells => cells(2)) ©@ 


var barSplit = barTable.map(line => line.split("\\|")) ©@ 


var barKeyed = barSplit.keyBy(cells => cells(0)) 


var joinedValues = fookKeyed. 


var joinedFiLtered = @ 


join(barkeyed) @ 


joinedValues.filter(joinedVal => 
joinedVal. 2. 1(1).toInt + joinedVal. 2. 2(1).toInt <= 1000) 


joinedFiLtered.take(100) © 


以 上 代码 功能 如 下 。 


@ 加 载 Foo 和 Bar 两 个 数据 集 ， 形 成 两 个 RDD。 

@ 将 Foo 的 每 一 行 切 分 成 多 个 单元 的 集合 

加 过 滤 切 分 好 的 Foo 数据 集 ， 仅 保存 第 二 列 小 于 500 的 元 素 。 
@ 使 用 ID 列 作为 键 ， 将 结果 转化 成 键 值 对 。 





@ 按照 切 分 Foo 的 方式 切 分 Bar， 
@ 关联 Bar 和 Foo。 
































并 以 ID 为 键 将 其 转化 成 键 值 对 。 


日 


@ 过 滤 关 联 产 生 的 结果 集 。 Sh filter() 国 数 以 joinedVal 作为 输入 。 这 个 RDD 包含 
一 行 ， 查 看 两 个 数据 集 第 一 列 的 和 是 否 小 于 1000。 


一 对 Foo 和 Bar 行 。 我 们 遍 


@ 展示 结果 集中 的 前 100 条 记录 。 注 意 ， 这 是 本 代码 中 唯 

















义 的 整个 变换 操作 链 只 会 在 此 处 触发 。 





这 段 代 码 看 起 来 已 经 很 简洁 了 ， 
// 简 短 版 


不 过 还 可 以 实现 得 更 加 紧凑 些 


var fooTable = sc.textFile("foo") 
.map(line => line.split("\\|")) 


.filter(cells => cells(1) 
.keyBy(cells => cells(2)) 


.toInt <= 500) 


var barTable = sc.textFile("bar") 
.map(line => line.split("\\|")) 


.keyBy(cells => cells(0)) 


var joinedFiltered = fooTable.join(barTable) 


.filter(joinedVal => 


个 Action， 


joinedVal. 2. 1(1).toInt + joinedVal. 2. 2(1).toInt <= 1000) 


joinedFiltered. take(100) 


代码 的 执行 计划 如 图 3-9 所 示 。 








因此 代码 中 定 
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3-9: Spark 的 执行 


3.2.6 ”Spark 使 用 场景 


虽然 现在 Spark 还 是 一 个 新 生 的 框架 ,但 它 设计 良好 、 速 度 飞 快 ， 具有 易 用 性 、 扩 展 性 ， 
获得 了 高 度 的 支持 。 我 们 有 充足 的 理由 相信 它 会 快速 地 流行 起 来 。Spark 仍然 有 些 地 方 不 
够 完善 ， 但 随 着 框架 的 逐步 成 熟 ， 随 着 更 多 的 开发 者 学 会 使 用 它 ， 我 们 相信 Spark 的 星星 
之 火 可 以 类 原 ， 在 大 多 数 场景 上 使 MapReduce 黯然 失色 。Spark 十 分 擅长 针对 缓存 在 内 存 
中 的 数据 进行 欠 代 操作 ， 这 使 它 成 为 了 机 器 学 习 应 用 的 不 二 之 选 。 

除了 可 以 取代 MapReduce，Spark 还 提供 了 SQL、 图 处 理 和 流 处 理 框 架 。 这 些 项 目 相 比 Spark 
尚且 稚嫩 ， 它 们 能 否 流 行 开 来 ， 并 在 Hadoop 生态 系统 中 占据 一 席 之 地 ， 还 有 待 观察 和 确认 。 


另 一 个 基于 DAG 的 处 理 框 架 

将 Apache Tez (http://tez.apache.org) 引入 Hadoop 生态 系统 是 为 了 解决 
MapReduce 中 的 限制 。 与 Spark 类 似 ，Tez 也 可 以 将 数据 处 理 表达 成 复杂 的 
DAG。Tez 架构 设计 的 目标 是 提供 优 于 MapReduce 的 性 能 和 资源 管理 能 力 。 
对 于 原本 以 MapReduce 作为 执行 引擎 的 任务 (如 Hive、Pig)， 这 种 增强 和 
改进 使 Tez 很 适合 取代 MapReduce 成 为 新 的 执行 引擎。 

虽然 Tez 承诺 能 够 极 大 地 优化 Hadoop 上 的 数据 处 理 ， 但 它 当 前 的 状态 更 适 
合作 为 一 个 底层 工具 ， 支 撑 Hadoop 上 的 执行 引擎 ， 而 不 是 更 高 一 级 的 开发 
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工具 。 因 此 ， 本 章 不 会 详细 地 介绍 Tez， 不 过 随 着 Tez 日 渐 成 熟 ， 我 们 期 待 
看 到 它 成 为 更 强大 的 Hadoop 应 用 开发 工具 ， 同 其 他 工具 展开 竞争 。 
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3.3 抽象 层 


为 了 让 MapReduce 更 好 用 ， 有 许多 项 目 开发 出 来 。 这 些 项 目 通 过 抽象 隐藏 了 MapReduce 
的 复杂 性 ， 让 海量 数据 集 的 处 理 变 得 较为 容易 。Apache Pig、Apache Crunch、Cascading 
以 及 Apache Hive 均 属 于 这 种 情况 。 这 些 抽象 对 应 两 类 不 同 的 编程 模型 : ETL (Extract， 
Transform, Load， 抽 取 、 转 换 、 加 载 ) 和 查询 。 我 们 首先 讨论 ETL 模型 ， 包 括 Pig、 
Crunch 和 Cascading。 接 下 来 ， 我 们 会 学 习 Hive 及 查询 模型 。 


那么 ETL 模型 与 查询 模型 的 不 同 点 是 什么 ? ETL 过 程 以 指定 数据 集 作 为 输入 ， 对 其 执行 
一 系列 的 操作 产生 一 个 输出 数据 集 ，ETL 又 对 这 一 过 程 进行 优化 。 而 查询 模型 则 向 数据 提 
出 问题 ， 获 取 答 案 。 不 过 这 不 是 分 类 的 硬性 标准 ， 不 能 简单 地 一 刀 切 。Hive 同时 也 是 执行 
ETL 操作 的 常用 工具 ， 第 10 章 会 进一步 讨论 这 一 点 。 但 是 ， 在 一 些 场景 中 ， 与 Hive 这 样 
的 查询 引擎 相 比 ，Pig 这 样 的 工具 能 够 在 实现 ETL 工作 流 方 面 提 供 更 好 的 灵活 性 。 


虽然 这 些 工具 最 初 都 是 在 MapReduce 上 作为 抽象 实现 的 ， 不 过 它们 大 多 数 都 可 以 在 其 他 
的 执行 引擎 上 运行 。 举 例 来 说 ，Tez 就 可 以 作为 引擎 执行 Hive 查询 。 写 作 本 书 时 ， 使 用 
Spark 做 Pig 和 Hive 后 端的 工作 也 在 活跃 地 进行 中 。 

在 深入 了 解 这 些 抽象 之 前 ， 让 我 们 先 讨 论 它 们 的 不 同 点 。 

Apache Pig 


。 Pig 提供 了 一 种 叫 作 Pig Latin 的 编程 语言 ， 能 够 更 方便 地 在 海量 数据 集 上 进行 复杂 的 变 
换 操作 。 

。 Pig 提供 一 个 用 于 快速 开发 的 终端 Grunt shell， 能 够 交互 式 地 编写 和 运行 脚本 。 

。 Pig 提供 UDF 实现 以 支持 自 定义 功能 。 

。 基于 客户 和 用 户 的 使 用 经 验 ，Pig 是 应 用 最 为 广泛 的 Hadoop 数据 处 理工 具 。 

。 Pig 是 顶级 的 Apache 项 目 ， 有 200 多 位 代码 提交 人 员 。 

。 正如 先前 提 到 的 ， 尽 管 现 在 Pig 最 常用 的 执行 引擎 是 MapReduce， 但 Pig 与 代码 无 关 。 
这 就 意味 着 ， 底 层 的 执行 引擎 发 生变 化 时 无 需 修 改 Pig 的 代码 。 


Apache Crunch 


。 Crunch 应 用 程序 是 用 Java 语言 编写 的 ， 因 此 熟悉 Java 的 开发 者 不 需要 学 习 新 的 语言 。 

。 Crunch 支持 访问 MapReduce 的 全 部 功能 ， 在 需要 的 情况 下 可 以 很 容易 地 编写 底层 的 
代码 。 

。 Crunch 支持 与 集成 逻辑 相隔 离 的 业务 逻辑 ， 以 进行 代码 隔离 和 单元 测试 。 

。 Crunch 是 一 个 顶级 Apache 项 目 大 概 有 13 位 代码 提交 人 员 。 

。 与 Pig 不 同 的 是 ，Crunch 不 是 完全 独立 于 执行 引擎 的 ， 因 为 Crunch 支持 底层 的 
MapReduce 功能 ， 这 些 特性 在 更 换 引擎 时 将 不 复 存在 。 

Cascading 

。 类 似 于 Crunch，Cascading 应 用 的 代码 也 是 用 Java 语言 编写 的 。 

。 类 似 于 Crunch，Cascading 也 支持 对 MapReduce 功能 的 全 部 访问 ， 可 以 很 容易 地 编写 底 

层 的 代码 。 
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。 类 似 于 Crunch，Cascading 支持 与 集成 逻辑 相隔 离 的 业务 逻辑 ， 以 进行 代码 隔离 和 单元 
测试 。 

。 Cascading 项 目 大 约 有 7 位 全 职 代码 提交 人 员 。 

。 虽然 Cascading 不 是 一 个 Apache 项 目 ， 但 它 持 有 Apache 许可 证 。 


接 下 来 ， 让 我 们 从 Pig 开始 ， 深 入 了 解 这 些 抽象 工具 。 


3.3.1 Pig 


在 Hadoop 生态 系统 中 ，Pig 是 基于 MapReduce 的 最 广泛 使 用 的 抽象 工具 之 一 。 它 是 在 
Yahoo 公司 研发 的 ， 于 2007 年 托管 到 了 Apache 基金 会 。 


Pig 用 户 需 要 使 用 Pig 专用 的 工作 流 语言 Pig Latin 编写 查询 语句 ， 这 种 语句 通过 底层 的 执 
行 引 擎 (如 MapReduce) 进行 编译 并 执行 。Pig Latin 脚本 首先 会 编译 产生 一 个 逻辑 计划 ， 
然后 生成 物理 计划 。 物 理 计 划 是 可 以 通过 底层 引擎 (如 MapReduce、Tez 或 Spark) 执行 
的 。 指 定 查 询 对 应 的 逻辑 计划 与 物理 计划 是 不 同 的 ， 使 用 不 同 的 执行 引擎 时 ， 只 有 物理 计 
划 会 发 生变 化 。 

想 了 解 更 多 Pig 知识 ， 请 浏览 网 站 (http://pig.apache.org)， 或 参阅 《Pig 编程 指南 》。 























3.3.2 “Pig 示例 
下 面 的 例子 会 让 你 看 到 ，Pig Latin 是 一 种 相当 简单 的 自 描述 语言 。 浏 览 整 个 代码 ， 你 的 思 
路 在 整体 上 与 Spark 类 似 。 


fooOoriginal = LOAD 'foo/foo.txt' USING PigStorage('|') 
AS (fooId:long, fooVal:int, barId:long); 


fooFiltered = FILTER fooOriginal BY (fooVal <= 500); 


barOriginal = LOAD 'bar/bar.txt' USING PigStorage('|') 
AS (barId:long, barVal:int); 


joinedValues = JOIN fooFiltered by barId, barOriginal by barId; 
joinedFiltered = FILTER joinedValues BY (fooVal + barVal <= 500); 
STORE joinedFiltered INTO 'pig/out' USING PigStorage ('|'); 
对 于 这 个 脚本 ， 你 需要 注意 以 下 几 点 。 
。 数据 容器 
这 指 的 是 foooriginal 和 fooFiltered 这 种 代表 一 个 数据 集 的 标识 符 。 这 在 Pig 中 也 称 
为 关系 ， 与 Spark 中 的 RDD 概念 类 似 〈 纵 然 它 们 在 持久 化 语义 上 过 然 不 同 )。 提 到 Pig 
中 的 术语 ， 一 个 关系 就 是 一 个 包 (bag)， 包 也 就 是 元 组 (tuple) 的 集合 。 元 组 是 一 系列 
值 或 者 对 象 的 集合 。 一 个 元 组 可 以 是 包 。 一 个 包 可 以 包含 多 个 元 组 ， 一 个 元 组 可 以 包含 
多 个 包 ， 以 此 类 推 。 
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。 变换 函数 
这 里 指 的 是 类 似 于 FILTER 和 JOIN 这 种 可 以 变换 关系 的 操作 符 。 这 里 的 逻辑 也 和 Spark 
中 的 情况 类 似 ， 这 些 变换 不 会 立即 执行 。 直 到 调用 STORE 命令 时 ， 变 换 才 会 真正 执行 ， 
调用 saveToTextFile 时 才 会 输出 结果 。 

。 字段 定义 
这 一 点 与 Spark 不 同 ， 字 段 及 其 数据 类 型 是 需要 明确 指出 的 (如 foord:tong)。 这 样 可 
以 使 字段 的 数据 处 理 更 为 简单 ， 允 许 其 他 的 外 置 工具 从 字段 层次 跟踪 血缘 关系 。 

。 不 支持 Java 
上 面 的 例子 不 涉及 导入 某 个 类 或 对 象 的 命令 。 在 一 定 程度 上 ， 用 户 会 受到 Pig Latin 
的 语言 限制 。 从 另外 一 个 角度 来 讲 ， 用 户 也 避免 了 使 用 额外 的 编程 语言 接口 进行 数 
据 处 理 的 复杂 性 。 如 果 的 确 需要 使 用 编程 接口 ， 那 么 可 以 使 用 稍 后 提 到 的 Crunch 和 


Cascading。 


当 执 行 类 似 于 Explain JoinedFiltered 这 样 的 命令 时 ，Pig 会 展示 该 任务 的 查询 计划 。 如 
下 是 来 自 filterjoin-filter 任务 查询 计划 的 输出 。 






























































MapReduce node scope-43 

Map Plan 

Union[tuple] - scope-44 

| 

---joinedValues: Local Rearrange[tuple]{long}(false) - scope-27 


| | 

| Project[long][2] - scope-28 
| 

[es 


fooFiltered: Filter[bag] - scope-11 
| 


Less Than or Equal[boolean] - scope-14 


|---Project[int][1] - scope-12 
| 
Ls 


--Constant(500) - scope-13 


| 

| 

| 

| 

| 

| 

| 
|---fooOriginal: New For Each(false,false,false)[bag] - scope-10 
| | 

| Cast[long] - scope-2 

el 

| |---Project[bytearray][0] - scope-1 

| | 

| Cast[int] - scope-5 

| | 

| |---Project[bytearray][1] - scope-4 

| | 

| Cast[long] - scope-8 

| | 

| 
| 


| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| |---Project[bytearray][2] - scope-7 
| 
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| |---foo0riginaL: Load(hdfs://LocatLhost:8020/foo/foo .txt:N\ 
pigStorage('|')) - scope-0 

| 

|---joinedValues: Local Rearrange[tupLe]{Long}(faLse) - scope-29 


| | 

| Project[long][0] - scope-30 
| 

|= 


--barOriginal: New For Each(false,false)[bag] - scope-22 


| 
Cast[Long] - scope-17 


| 

| 

| | 

| |---Project[bytearray][0] - scope-16 
| | 

| Cast[int] - scope-20 

| | 

| |---Project[bytearray][1] - scope-19 
| 


|---barOriginal: Load(hdfs://Llocalhost:8020/bar/bar .txt:\ 
pigStorage('|')) - scope-15-------- 
Reduce Plan 
joinedFiltered: Store(fakefile:org.apache.pig.builtin.PigStorage) - scope-40 


| 
|---joinedFiltered: Filter[bag] - scope-34 


Less Than or Equal[boolean] - scope-39 


--Add[int] - scope-37 
| 


| 

| 

| |---Project[int][1] - scope-35 
| | 
DD 

| 

| 


--Project[int][4] - scope-36 


| 
| 
| 
| 
| 
| 
| 
| 
| 
| --Constant(500) - scope-38 
| 


|---POJoinpackage(true,true)[tuple] - scope-45-------- 
Global sort: false 


通过 以 上 的 查询 计划 你 可 以 看 到 ， 这 个 MapReduce 任务 正如 之 前 的 MapReduce 实现 一 样 ， 
而 且 Pig 也 在 同一 个 地 方 执行 了 先前 MapReduce 代码 中 的 过 滤 。 因 此 ， 从 内 部 实现 来 看 ， 
Pig 的 代码 与 我 们 编写 的 MapReduce 代码 的 执行 速度 是 相同 的 。 实 际 上 ， 前 者 会 更 快 一 点 

这 是 因为 Pig 会 将 执行 过 程 中 的 数据 存储 成 原始 类 型 ， 而 MapReduce 则 会 翻来覆去 地 转换 
字符 串 。 


3.3.3 ”Pig 使 用 场景 
这 里 总 结 一 下 关于 Pig 的 讨论 ， 如 下 是 使 用 Pig 执行 Hadoop 数据 处 理 的 理由 。 


。 Pig Latin 易于 阅读 和 理解 。 

。 MapReduce 的 复杂 特性 在 Pig 中 化 解 了 。 

。 与 相同 功能 的 MapReduce 任务 相 比 ， 从 代码 行 数 及 实现 的 角度 看 ，Pig Latin 脚本 非常 
简短 。 因 此 ，Pig 脚本 的 维护 成 本 比 MapReduce 任务 低 很 多 。 
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。 不 需要 对 代码 进行 编译 。Pig Latin 脚本 可 以 在 Pig 控制 台中 直接 运行 。 

。 Pig 提供 了 强大 的 工具 ， 可 以 查看 任务 是 如 何 执行 的 。 使 用 DESCRIBE joinedFiltered; 
可 以 查看 集合 中 有 哪些 数据 类 型 ， 使 用 Explain joinedFiltered; 可 以 查看 Pig 用 来 获 
取 结 果 的 查询 计划 。 

Pig 最 大 的 缺点 在 于 需要 上 手 一 门 新 的 语言 。 对 于 许多 开发 者 来 讲 ， 熟 练 和 掌握 包 、 元 组 、 

关系 等 相关 的 概念 是 需要 时 间 的 。 

通过 Pig 命令 行 访 问 HDFS 

Pig 还 提供 了 一 个 独特 的 功能 : 访问 HDFS 的 简单 命令 行 接口 。 使 用 Pig shell， 
你 可 以 浏览 HDFS 文件 系统 ， 类 似 于 在 Linux 上 访问 已 挂 载 的 HDFS。 如 果 手 
头 的 目录 层次 结构 比较 元 长 ， 你 希望 在 指定 目录 下 执行 文件 系统 命令 (如 rm、 
cp、pwd 等 )，Pig shell 会 很 有 用 。 通 过 在 提示 前 面 加 上 fs 命令 ， 你 甚至 可 以 
用 hdfs fs 访问 所 有 的 命令 ， 而 且 这 些 命令 会 在 给 定 目录 的 上 下 文中 执行 。 所 
以 ， 即 便 不 使 用 Pig 开发 应 用 级 ， 也 会 觉得 Pig shell 访问 HDFS 是 很 有 用 的 。 
























































3.4 Crunch 


Crunch 是 基于 Google 的 FlumeJava 设计 开发 的 。 它 使 数据 流 更 加 容易 编 进 Java， 开 发 人 
员 无 需 深 入 了 解 MapReduce 的 细节 ， 不 必 考 虑 市 点 分 布 ， 也 不 必 考 虑 DAG 中 的 顶点 。 这 
里 生成 的 代码 与 Pig 比较 类 似 ， 不 过 没有 对 字段 的 定义 ， 因 为 Crunch 会 默认 读 取 磁盘 上 的 
原始 数据 。 

Spark 的 核心 是 SparkContext， 而 Crunch 的 核心 是 Pipeline 对 象 (MRPipeline 或 SparkPipeline)。 
Pipeline 对 象 允 许 用 户 创 建 第 一 个 PCoLLections。Crunch 中 的 PCollections 和 PTable 类 
似 于 Spark 中 的 RDD、Pig 中 的 关系 。 


调用 done() 方法 会 触发 Crunch 流水 线 的 实际 执行 。Crunch 与 Pig 和 Spark 不 同 的 一 点 在 
于 ，Pig 和 Spark 在 执行 Action 时 真正 开始 执行 。 而 Crunch 将 执行 延迟 至 调用 done( ) 方 
法 。Pipeline 对 象 持 有 编译 Crunch 代码 生成 MapReduce 或 Spark 工作 流 (以 获取 所 需 的 
结果 集 ) 的 逻辑 。 


之 前 我 们 提 到 过 ，Crunch 支持 Spark 和 MapReduce， 但 Crunch 代码 不 能 100% 兼容 。 这 
种 限制 主要 集中 在 Pipeline 对 象 上 。 对 于 不 同 的 Pipeline 实现 ， 你 可 以 获得 不 同 的 核心 
功能 ， 如 集合 类 型 、 函 数 类 型 等 。 这 种 不 同 在 某 种 程度 上 是 Crunch 侧 的 需求 冲突 造成 的 。 
Crunch 希望 提供 MapReduce 的 底层 功能 ， 但 是 有 一 些 功能 在 Spark 中 是 不 存在 的 。 








想 要 了 解 更 多 关于 Crunch 的 内 容 ， 参 见 Apache Crunch 的 主页 (http://crunch. 
apache.org/)。 另 外 , 《Hadoop 硬 实战 》 中 提 到 了 Crunch 的 一 些 内 容 ， 而 
《Hadoop 权威 指南 (第 4 版 )》 中 有 关于 Crunch 的 章节 。 





























注 4: 注意 ，FlumeJava 仅 在 Google 内 部 使 用 ， 是 一 个 无 法 公开 获取 的 项 目 。 
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3.4.1 Crunch 示 例 


接 下 来 的 示例 是 一 个 执行 flter-join-filter 案例 的 Crunch 程序 。 你 会 注意 到 ， 主 要 的 逻辑 代 
码 在 run() 方法 中 。 业 务 逻 辑 在 run() 方法 之 外 进行 了 定义 ， 会 在 流水 线 的 不 同 地 方 触发 。 
这 与 Spark 中 使 用 Java 实现 的 方式 类 似 ， 工 作 流 程 与 业务 逻辑 就 这 样 很 好 地 分 离开 来 。 


public class JoinFilterExampleCrunch implements Tool { 


public static final int FOO_ID_INX = 0; 
public static final int FOO_VALUE_INX = 1; 
public static final int FOO_BAR_ID_INX = 2; 


public static final int BAR_ID_INX = 0; 
public static final int BAR_VALUE_INX = 1; 


public static void main(String[] args) throws Exception { 
TooLRunner .run(new Configuration(), new JoinFilterExampleCrunch(), args); 


} 


Configuration config; 
public Configuration getConf() { 


return config; 


} 


public void setConf(Configuration config) { 
this.config = config; 


} 


public int run(String[] args) throws Exception { 


String fooInputPath = args[0]; 

String barInputPath = args[1]; 

String outputpPath = args[2]; 

int fooValMax = Integer.parseInt(args[3]); 

int joinValMax = Integer.parseInt(args[4]); 

int numberOfReducers = Integer.parseInt(args[5]); 


Pipeline pipeline = 
new MRPipeline(JoinFilterExampleCrunch.class, getConf()); © 


PCoLLection<String> fooLines = pipeline.readTextFile(fooInputPath); © 
PCoLLection<String> barLines = pipeline.readTextFile(barInputPath); 


pTable<Long, Pair<Long, Integer>> fooTable = fooLines.parallelDo( © 
new FooIndicatorFn(), 
Avros.tableOf(Avros. longs(), 
Avros.pairs(Writables.longs(), Writables.ints()))); 

fooTable = fooTable.filter(new FooFilter(fooValMax)); ©@ 


PTable<Long, Integer> barTable = barLines.parallelDo(new BarIndicatorFn(), 
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Avros.tableOf(Avros.longs(), Avros.ints())); 


DefaultjJoinStrategy<Long, Pair<Long, Integer>, Integer> joinStrategy = ©@ 
new DefaultJoinStrategy 
<Long, Pair<Long, Integer>, Integer> 
(numberOfReducers); 


PTable<Long, Pair<Pair<Long, Integer>, Integer>> joinedTable = 
joinstrategy @ 
.join(fooTable, barTable, JoinType.INNER_JOIN); 


PTable<Long, Pair<Pair<Long, Integer>, Integer>> filteredTable = 
joinedTable.filter(new JoinFilter(joinValMax)); 


filteredTable.write(At.textFile(outputPath), WriteMode.OVERWRITE); ©@ 
PipelineResult result = pipeline.done(); 


return result.succeeded() ? 0 : 1; 


} 


public static class FooIndicatorFn extends 
MapFn<String, Pair<Long, Pair<Long, Integer>>> { 


private static final long serialVersionUID = 1L; 


@Override 
public Pair<Long, Pair<Long, Integer>> map(String input) { 
String[] cells = StringUtils.split(input.toString(), "|"); 


Pair<Long, Integer> valuePair = new Pair<Long, Integer>( 
Long.parseLong(cells[FOO0_ID_INX]), 
Integer .parseInt(cells[FOO_VALUE_INX])); 


return new Pair<Long, Pair<Long, Integer>>( 
Long.parseLong(cells[FOO_BAR_ID_INX]), valuePair); 
} 
} 


public static class FooIndicatorFn extends 
MapFn<String, Pair<Long, Pair<Long, Integer>>> { 


private static final long serialVersionUID = 1L; 


@Override 
public Pair<Long, Pair<Long, Integer>> map(String input) { 
String[] cells = StringUtils.split(input.toString(), "|"); 


Pair<Long, Integer> valuePair = new Pair<Long, Integer>( 
Long.parseLong(cells[FOO0_ID_INX]), 
Integer .parseInt(cells[FOO_VALUE_INX])); 


return new Pair<Long, Pair<Long, Integer>>( 
Long.parseLong(cells[FOO_BAR_ID_INX]), valuePair); 
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} 
public static class FooFilter extends 
Filterfn<Pair<Long,Pair<Long,Integer>>> { 


private static final long serialVersionUID =1L; 
int fooValMax; 


FooFilter(int foovaLMax) { 
this.fooValMax = fooValMax; 


} 


@Override 
public boolean accept(Pair<Long, Pair<Long, Integer>> input) { 
return input.second().second() <= fooValMax; 
3 
} 


public static class FooFilter extends 
FilterFn<Pair<Long, Pair<Long, Integer>>> { 


private static final Long serialVersionUID = 1L; 
int fooValMax; 


FooFilter(int foovaLMax) { 
this.fooValMax = fooValMax; 


} 


@Override 
public boolean accept(Pair<Long, Pair<Long, Integer>> input) { 
return input.second().second() <= fooValMax; 
} 
} 


public static class BarIndicatorFn extends MapFn<String, Pair<Long, Integer>> { 


private static final Long serialVersionUID = 1L; 


@Override 
public pair<Long, Integer> map(String input){ 
String[] cells = StringUtils.split(input.toString(), "|"); 


return new Pair<Long, Integer>(Long.parseLong(cells[BAR_ID_INX]), 
Integer .parseInt(cells[BAR_VALUE_INX])); 
} 
} 


public static class JoinFilter extends 
FilterFn<Pai<Long, Pair<Pair<Long, Integer>, Integer>>> { 


private static final Long serialVersionUID = 1L; 
int joinValMax; 


JoinFilter(int joinValMax) { 
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this,joinValMax = joinValMax; 


} 


@Override 

public boolean accept(Pair<Long, 
Pair<Pair<Long, Integer>, 
Integer>> input) { 


return input.second().first().second() + 
input.second().second() <= joinValMax; 


} 
} 


下 面 我 们 对 这 段 代码 进行 探究 ， 了 解 一 下 究竟 发 生 了 什么 。 

@ 首先 我 们 通过 configuration 对 象 创 建 了 一 个 MRPipeline 实例 。 注 意 ， 通 过 选用 
MRPipeline 类 ， 我 们 选择 使 用 MapReduce 作为 底层 的 处 理 引 擎 。 这 里 也 可 以 换 作 使 用 
Spark 这 样 的 执行 引擎 。 

四 这 里 的 两 行 代码 将 输入 加 入 新 创建 的 流水 线 中 ， 并 排序 形成 PCoLLection。 这 样 做 与 
Spark 使 用 RDD 的 思路 一 致 。 可 以 认为 PCollection 就 是 一 个 不 可 修改 的 分 布 式 集合 ， 

在 上 面 进行 的 绝 大 部 分 操作 都 可 以 分 布 化 。 类 似 于 Spark，PCoLtLection 在 物理 上 可 能 是 

不 存在 的 ， 换 句 话 说 ， 它 可 能 存储 于 内 存 中 或 磁盘 上 。 


图 这 里 第 一 次 调用 parallelpo， 它 类 似 于 Spark 中 RDD 的 map() 函数 。 该 函数 以 分 布 式 
的 方式 遍历 PCollection 中 的 所 有 项 目 ， 要 么 返回 另 一 个 PCoLLection， 要 么 像 本 例 中 
这 样 返 回 一 个 PTable。 注 意 ， 这 里 调用 了 一 个 名 为 FooIndicatorFn() 的 方法 。 后 面 有 
它 的 实现 代码 ， 现 在 我 们 只 需 知 道 以 分 布 式 的 方式 遍历 每 条 记录 时 会 调用 到 该 方法 。 其 
他 的 参数 则 告诉 Crunch 我 们 接 下 来 想 要 返回 一 个 新 的 PTable。PTable 与 PCoLLection 
的 不 同 点 在 于 ， 前 者 包含 我 们 需要 的 键 值 对 ， 可 以 用 来 帮助 关联 。 


@ 通过 一 个 分 布 式 的 过 滤器 创建 一 个 新 的 PTable。 

@ 定义 接 下 来 的 关联 使 用 的 关联 策略 。 在 这 里 我 们 使 用 DefaultJoinStrategy， 不 过 还 有 其 
他 的 选项 ， 如 BloomFilterJoinStrategy、MapsideJoinStrategy 以 及 SharedJoinStrategy。 在 
选择 关联 策略 之 前 ， 需 要 了 解数 据 集 的 特点 。 

@ 这 里 是 进行 关联 操作 的 示例 代码 。 我 们 使 用 了 新 创建 的 关联 策略 ， 输 入 PTable 以 及 内 
联 或 外 联 的 定义 等 参数 。 

@ 最 后 ， 我 们 将 数据 写 和 磁盘。 注意 这 仍 是 一 个 分 布 式 的 写 操作 ， 因 此 你 会 看 到 输出 目录 
中 有 多 个 文件 ， 一 个 线程 写 一 个 文件 。 


3.4.2 ” Crunch 使 用 场景 


既然 Crunch 与 Spark 相似 ， 是 否 有 理由 认为 对 于 大 多 数 的 开发 者 来 说 ，Crunch 会 最 终 被 
Spark 取代 呢 ? 考虑 到 几 个 因素 ， 这 也 未 必 。 使 用 基于 Spark 的 Crunch 可 以 获得 抽象 带 来 
的 好 处 ， 而 且 有 抽象 层 的 隔绝 ， 底 层 执行 引擎 Spark 可 以 替换 。 
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然而 ， 抽 象 层 在 带 来 好 处 的 同时 也 需要 付出 代价 。 要 做 到 充分 地 利用 抽象 ， 就 需要 理解 底 
层 的 引擎 ， 因 此 要 学 习 Spark 和 Crunch。 另 外 ，Spark 可 能 添加 了 新 的 功能 ， 但 这 一 点 尚 
未 同步 到 Crunch 中 ， 除 非 Crunch 发 生 更 新 ， 否 则 将 无 法 使 用 这 一 新 功能 。 


大 多 数 情况 下 ， 已 经 使 用 Crunch 的 开发 人 员 会 继续 使 用 它 。Crunch 与 其 他 的 抽象 一 一 如 
Pig， 以 及 不 那么 流行 的 Cascading 一 一 存在 竞争 关系 ， 正 如 MapReduce 与 底层 执行 引擎 也 
存在 着 一 定 的 竞争 关系 。 如 果 你 喜欢 Java， 喜 欢 这 种 在 底层 执行 引擎 之 上 进行 封装 的 抽象 
层 思想 ， 那 么 Crunch 或 许 是 一 个 不 错 的 选择 。 









































3.5 Cascading 

在 三 个 ETL 抽象 中 ， 根 据 我 们 的 经 验 ，Cascading 是 用 户 最 少 的 一 个 。 不 过 使 用 它 的 人 觉 
得 这 个 工具 的 确 很 有 价值 。 看 看 代码 ， 你 会 发 现 Cascading 介 于 Crunch 和 Pig 之 间 。 它 与 
Crunch 类 似 的 地 方 如 下 。 

。 使 用 Java 语言 编码 。 

。 Cascading 支持 将 业务 逻辑 与 数据 流 剥 离开 来 。 

。 Cascading 提供 了 访问 底层 接口 的 功能 。 

Cascading 与 Pig 在 以 下 方面 比较 相似 。 

。 Cascading 囊括 了 强 类 型 字段 的 概念 ， 允 许 列 级 别 的 血缘 关系 跟踪 。 

。 你 可 以 通过 UDF 剥离 业务 逻辑 ， 并 实现 自 定义 的 功能 。 


























想 了 解 更 多 关于 Cascading 的 信息 ， 参 见 Cascading 的 主页 (http://cascading. 
org/) ， 或 参考 Paco Nathan 所 著 的 Enterprise Data Workflows with Cascading。 





3.5.1 ” Cascading 示例 


下 面 的 代码 使 用 Cascading 实现 了 filter-join-fhilter。 第 一 次 阅读 这 段 代 码 ， 你 可 能 会 觉得 它 
有 些 复杂 ， 跟 Crunch 和 Spark 不 大 相同 。 不 过 仔细 分 析 一 下 ， 你 就 会 发 现 它们 仍然 有 相近 
的 地 方 。 


public class JoinFilterExampleCascading { 
public static void main(String[] args) { 

String fooInputPath = args[0]; 
String barInputPath = args[1]; 
String outputpPath = args[2]; 
int fooValMax = Integer.parseInt(args[3]); 
int joinValMax = Integer.parseInt(args[4]); 
int numberOfReducers = Integer.parseInt(args[5]); 














Properties properties = new Properties(); 

AppProps.setApplicationJarClass(properties, 
JoinFilterExampleCascading.class); 

properties.setProperty("mapred.reduce.tasks'" ， 
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Integer .toString(numberOfReducers ) ); 
properties.setProperty("mapreduce. job.reduces", 
Integer.toString(numberOfReducers)); 


SpillablepProps props = SpiLLabLeProps.spiLLabLeProps() 


.SetCompressSpill( true ) 
.SetMapSpiLLThreshoLd( 50 * 1000 ); 


HadoopFLowConnector flowConnector = new HadoopFlowConnector(properties); 





// 创 建 数据 源 和 Sink 对 应 的 Tap 

Fields fooFields = new Fields("fooId", "fooVal", "foobarId"); 

Tap fooTap = new Hfs(new TextDelimited(fooFields, "|"), fooInputPath); 
Fields barFields = new Fields("barId", "barVal"); 

Tap barTap = new Hfs(new TextDelimited(barFields, "|"), barInputpath); ©@ 


Tap outputTap = new Hfs(new TextDelimited(false, "|"), outputPath); © 


Fields joinFooFields = new Fields("foobarId"); 
Fields joinBarFields = new FieLds("barId"); ©@ 


pipe fooPipe = new Pipe("foopipe"); 
Pipe barPipe = new Pipe("barPipe"); © 


Pipe fooFiltered = new Each(foopipe, fooFields, new FooFilter(fooValMax)); 


Pipe joinedPipe = new HashJoin(fooFiltered, joinFooFields, barpipe, 
joinBarFields); ©@ 
props.setPproperties( joinedpipe.getConfigDef(), Mode.REPLACE ); 


Fields joinFieLds = new Fields("fooId", "fooVal", "foobarId", "barVal"); 
Pipe joinedFLLteredPipe = new Each(joinedpipe, joinFields, 
new JoinedFilter(joinValMax)); 


FlowDef flowDef = FlowDef.flowDef().setName("wc" © 
.addSource(foopipe, fooTap).addSource(barpipe, barTap) 
.addTailSink(joinedFilteredpPipe, outputTap); 


Flow wcFlow = fLowConnector .connect(fLowDef); © 
wcFlow.completel( ); 


} 
public static class FooFilter extends BaseOperation implements Filter { 
int fooValMax; 


FooFilter(int fooValMax) { 
this.fooValMax = fooValMax; 
} 


@Override 
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public boolean isRemove(FlowProcess flowProcess, FilterCall filterCall) { 


int fooValue = filterCall.getArguments().getTuple().getInteger(1); 


return fooValue <= fooValMax 


} 
} 


public static class JoinedFilter 
int joinValMax; 


JoinedFilter(int joinValMax) { 
this.joinValMax = joinValMax 


} 


@Override 


和 


extends BaseOperation implements Filter { 


3? 


public boolean isRemove(FlowProcess flowProcess, FilterCall filterCall) { 


int fooValue = 
int barVaLue = 
return fooValue + barValue < 
} 
} 
} 


filterCall.getArguments().getTuple().getInteger(1); 
filterCall.getArguments().getTuple().getInteger(3); 


= joinValMax; 


让 我 们 看 看 在 Cascading 中 都 发 生 了 什么 。 


@ Cascading 应 用 通常 会 拆 分 成 四 个 阶段 ， 配置 阶段 、 集 成 阶段 、 处 理 阶段 ， 和 最 后 的 调 
度 阶段 。 在 本 例 中 ， 我 们 首先 进行 配置 ， 并 创建 了 HadoopFLowConnector。 


名 接 下 来 ， 我 们 配置 Tap， 即 应 用 程序 的 输入 数据 。 
@ 在 结束 Cascading 代码 的 集成 部 分 之 前 ， 请 注意 我 们 定义 输出 的 方式 ， 这 也 是 一 个 Tap 





对 象 。Cascading 包含 Source 和 Sink 
Sink Tap。 


@ 从 此 处 进入 Cascading 程序 的 数据 处 至 











两 类 Tap， 在 这 里 我 们 创建 了 一 个 供 输出 使 用 的 








步骤 ， 在 执行 后 续 关 联 之 前 ， 定 义 关联 使 用 的 键 。 


加 在 这 里 我 们 定义 了 Pipe 对 象 。Crunch 使 用 Java 编写 分 布 式 集合 ， 与 之 不 同 的 是 ， 
Cascading 要 雳 虑 的 是 Pipe 和 Tap。 这 两 个 管道 从 数据 源 获 取 数 据 ， 执 行 关联 后 流向 输 


出 池 。 这 里 的 管道 在 感觉 和 行为 上 与 

















Crunch 的 PCoLLection、Spark 的 RDD 比较 相像 。 


@ 使 用 Each() 调用 ， 将 FooFilter() 方法 应 用 到 fooPipe 传递 过 来 的 每 一 个 元 组 上 。 


@ 这 里 是 使 用 Cascading 进行 关联 的 第 








的 情况 类 似 ， 关 联 有 很 多 选项 和 参数 


个 例子 。 与 使 用 Crunch 和 SQL ( 稍 后 会 讨论 ) 











o 


@ 接 下 来 ， 我 们 结束 处 理 步 又， 进入 调度 阶段 。 这 里 是 Cascading 中 的 “胶水 ”阶段 。 在 


这 里 我 们 将 原始 的 Source Tap 与 Sink 
© 最 后 ， 在 这 里 选择 数据 流 和 输出 位 置 








Tap 放 在 了 一 起 。 
， 开 始 执行 任务 。 
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3.5.2 ”Cascading 使 用 场景 


推荐 使 用 Cascading 的 场景 与 适合 使 用 Crunch 的 场景 相同 。 选 择 通 常 取决 于 个 人 偏好 、 往 
日 经 验 以 及 对 特定 编程 模型 的 适应 程度 。 毕 竞 ， 各 种 ETL 抽象 之 间 的 区 别 比较 小 。 


注意 ， 以 上 讨论 的 抽象 均 属 于 ETL 模型 。 在 3.6 节 ， 重 点 会 转向 查询 模型 ， 开 始 讨论 Hive 
和 Impala。 


3.6 Hive 


Hive 是 第 一 个 基于 MapReduce 创建 的 抽象 引擎 。Hive 诞生 于 Facebook。 数 据 分 析 师 使 
用 Hive 分 析 Hadoop 中 的 数据 ， 而 且 能 够 使 用 熟悉 的 SQL 语法 ， 而 不 用 学 习 如 何 编写 
MapReduce 程序 。 




















3.6.1 Hive 概 述 


跟 Pig 相同 ，Hive 在 Hadoop 生态 系统 中 已 经 存在 了 很 长 时 间 。Pig 要 求学 习 新 的 语言 ， 
而 Hive 则 允许 你 使 用 熟悉 的 语言 抽象 : SQL。 自 创建 以 来 ， 由 于 支持 SQL，Hive 成 为 了 
Hadoop 数据 分 析 的 一 个 热门 选择 。 而 且 ，Hive 现在 其 至 已 经 成 为 Hadoop 上 新 型 SQL 实 
现 如 Impala、Presto (https://prestodb.io/) 与 Spark SQL 的 基础 。 


Hive 是 一 个 成 熟 而 且 广 为 应 用 的 项 目 ， 一 直 以 来 ， 它 最 大 的 缺陷 就 是 性 能 不 佳 。 不 过 ， 在 
评价 了 Hive 及 其 性 能 之 后 ， 我 们 必须 解释 一 下 : Hive 正在 往 好 的 方向 改变 ， 而 且 这 些 改 
变 能 够 帮助 解决 问题 。 
这 里 产生 了 性 能 问题 ， 这 很 大 程度 上 是 因为 MapReduce 在 Hive 0.12 之 前 用 作 了 Hive 引 
擎 。MapReduce 很 实用 ， 但 是 并 不 适合 用 于 即席 查询 和 交互 式 查 询 。 不 适用 的 原因 很 多 ， 
主要 原因 是 MapReduce 会 频繁 地 读 写 磁盘 ， 而 且 MapReduce 任务 的 启动 成 本 很 高 。 因 此 ， 
个 多 表 关 联 的 查询 会 花费 数 分 钟 ， 不 是 因为 数据 量 过 大 ， 只 是 因为 读 取 和 写 入 磁盘 的 操 
作 大 多 。 
Hive 社区 很 清楚 这 些 性 能 问题 ， 而 且 有 许多 人 正在 尝试 解决 它们 。Hive 的 改进 方案 如 下 。 
。 Hive-on-Tez 
该 方案 能 够 使 用 Tez 一 一 一 种 比 MapReduce 性 能 更 高 的 批 处 理 引 擎 一 一 作为 Hive 底层 
的 执行 引擎 。Apache Hive 0.13.0 版 本 支持 在 Tez 上 运行 Hive。 





















































。 Hive-on-Spark 
Hive-on-Spark 与 前 面 的 Hive-on-Tez 类 似 ， 但 是 它 使 用 Spark 作为 Hive 底层 的 执行 引 
擎 。 该 任务 目前 处 于 研发 过 程 中 ， 它 的 问题 跟踪 编号 为 Hive-7292。 

。 向 量化 执行 查询 
该 方案 通过 每 次 处 理 多 行 数据 来 减少 Hive 查询 的 CPU 损耗 ， 并 减少 处 理 数据 时 条 件 分 
支 的 数量 。Apache Hive 0.13 是 第 一 个 支持 向 量化 查询 执行 (vectorized query execution) 
的 Hive 版 本 ， 需 要 以 特定 的 格式 (如 ORC 与 Parquet) 存储 数据 才能 利用 这 一 功能 。 














Tt 
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在 Hive 项 目 之 外 还 有 别 的 新 项 目 出 现 ， 如 Impala、Spark SQL、Presto 与 Apache Drill。 它 
们 都 能 提供 更 快 的 SQL-on-Hadoop。 随 后 我 们 会 在 本 章 详细 讨论 相关 内 容 。 


前 面 提 到 的 所 有 生态 系统 中 的 改进 (无 论 是 Hive 项 目 之 内 的 改进 还 是 外 部 优化 ) 都 在 使 
SQL-on-Hadoop 的 功能 日 益 强 大 ， 速 度 日 益 提 升 。 有 一 个 要 点 需要 广 意 : 所 有 重新 设计 
Hive 项 目的 方法 ， 以 及 新 的 项 目 都 依然 依赖 于 存储 元 数据 的 Hive 元 数据 服务 。 因 此 ， 各 
种 系统 都 能 共享 元 数据 ， 数 据 在 各 系统 之 间 的 传输 或 者 多 个 系统 之 间 的 相互 合作 都 变 得 更 
加 容易 。 对 于 共享 元 数据 ， 我 们 可 以 这 样 解释 : 比如 ， 当 用 户 在 Hive 中 创建 一 个 表 或 者 
对 已 经 存在 的 表 添 加 一 个 分 区 时 ， 创 建 的 表 或 添加 的 分 区 也 可 在 Impala 或 其 他 系统 中 使 
用 ， 反 之 亦 然 。 这 一 点 非常 重要 ， 而 且 对 于 开发 者 与 Hadoop 用 户 来 说 非常 实在 。Hive 元 
数据 服务 已 经 成 为 用 户 存 储 和 管理 元 数据 的 标准 。 

图 3-10 为 Hive 高 层 架 构图 。Hive 包含 一 个 名 为 HiveServer2 的 服务 器 ， 通 过 它 可 以 使 用 
JDBC、 开 放 式 数 据 库 连接 (Open Database Connectivity，ODBC) 及 Thrift 的 客户 端 连 接 。 
HiveServer2 支持 多 种 会 话 模式 ， 均 由 Hive Driver、 编 译 器 和 执行 器 构成 。HiveServer2 也 
与 元 数据 存储 服务 通信 ， 并 使 用 关系 型 数据 库存 储 元 数据 。 正 如 第 1 章 中 所 讲 到 的 ， 元 数 
据 服务 与 对 应 的 关系 型 数据 库 常 统称 为 Hive Metastore。 
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3-10: Hive 的 架构 

想 要 了 解 更 多 Hive 相关 内 容 ， 请 参阅 Apache Hive 网 站 (http://hive.apache.org/) 或 者 
《Hive 编程 指南 》。 

3.6.2 ”Hive 示 例 

继续 filter-join-filter 的 例子 ， 我 们 来 看 一 个 使 用 Hive 的 实现 。 


首先 需要 为 数据 集 创建 表 ， 如 以 下 代码 所 示 。 我 们 将 使 用 外 部 表 ， 这 样 一 来 ， 删 除 该 表 只 
会 删除 元 数据 (Metastore 中 的 表 名 、 列 名 、 类 型 等 信息 )。HDFS 中 的 基础 数据 仍 未 动 。 
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CREATE EXTERNAL TABLE foo(fooId BIGINT, fooVal INT，fooBarId BIGINT) 
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY "| 
STORED AS TEXTFILE 
LOCATION 'foo'; 


CREATE EXTERNAL TABLE bar(barId BIGINT, barVal INT) 
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY "| 
STORED AS TEXTFILE 
LOCATION "bar ' ; 


你 可 能 已 经 注意 到 了 ， 上 面 的 语法 与 传统 RDBMS 系统 略 有 不 同 。 不 过 ， 任 何 一 个 熟悉 
SQL 的 用 户 都 应 该 能 够 理解 这 条 查询 语句 的 功能 。 简 而 言 之 ， 我 们 创建 了 两 个 表 foo 和 
bar。 表 的 数据 存储 格式 为 文本 文件 ， 用 “|7” 作为 列 的 分 隔 符 ， 包 含 数据 的 文件 位 于 HDFS 
中 的 foo 与 bar 目录。 

另外 需要 注意 的 是 ， 在 这 些 情 况 下 我 们 也 定义 了 存储 格式 。 这 里 只 是 将 数据 存储 为 带 分 
隔 符 的 文本 文件 ， 但 是 在 生产 环境 中 ， 我 们 可 能 会 使 用 一 个 更 为 优化 的 二 进 制 格式 〈 如 
Parquet) 存储 数据 。 第 8 章 将 讨论 具体 的 案例 。 这 与 大 多 数 传统 的 数据 存储 (如 RDBMS) 
不 同 。 在 传统 的 数据 存储 中 ， 数 据 被 自动 转化 成 适用 于 数据 库 的 特定 优化 格式 。 

现在 ， 完 成 了 那些 操作 之 后 ， 我 们 可 以 运行 命令 来 计算 统计 信息 。 这 一 步 是 可 选 的 ， 不 过 
一 般 不 应 跳 过 。 这 样 一 来 ，Hive 就 可 以 基于 数据 分 布 ， 选 择 更 适合 数据 的 关联 策略 与 执行 
计划 。 在 Hive 中 计算 示例 中 表 的 统计 信息 ， 命 令 如 下 所 示 。 


ANALYZE TABLE foo COMPUTE STATISTICS; 
































ANALYZE TABLE bar COMPUTE STATISTICS; 


一 个 名 称 为 hive.stats.autogather 的 属性 开关 控制 了 Hive 统计 信息 的 自动 生成 ， 默 认 情 
况 下 设置 为 true。 但 是 ， 统 计 信息 只 有 在 通过 Hive 的 insert 语句 插入 数据 时 (如 INSERT 
OVERWRITE TABLE) 才能 自动 计算 。 如 果 在 Hive 之 外 将 数据 载 入 HDFS 中 ， 或 者 使 用 类 似 
于 Flume 的 工具 将 数据 输入 Hive 表 的 HDFS 位 置 ， 那 么 用 户 需要 运行 一 个 ANALYZE TABLE 
TABLE NAME ”COMPUTE STATISTICS 命令 ， 明 确 地 更 新 表 的 统计 信息 。 


于 是 ， 这 里 运行 只 包含 Map 阶段 的 任务 ， 读 取 数 据 、 计 算 各 种 相关 的 统计 信息 (如 min、 
max 等 )。 这 些 表 后 续 发 生 查询 时 ，Hive 的 查询 计划 器 可 以 利用 这 些 信息 。 


统计 信息 收集 完毕 之 后 ， 我 们 就 可 以 继续 了 。 下 面 是 在 Hive 中 执行 一 个 flter-join-filter 查 
询 所 需要 的 代码 。 


SELECT 

和 
FROM 

foo f JOIN bar b ON (f.fooBarId = b.barId) 
WHERE 

f.fooVal < 500 AND 

f.fooVal + b.barVal < 1000; 


你 可 能 注意 到 了 ， 代 码 很 简单 ， 如 果 你 熟悉 SQL 的 话 ， 则 更 是 如 此 。 因 此 ， 你 似乎 没 必 要 
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去 学 习 MapReduce、Pig、Crunch、Cascading 等 工具 了 。 


需要 往 意 的 是 ， 就 操作 优化 来 说 ，Hive 自身 做 不 到 最 好 ， 有 时 甚至 需要 设 定 一 些 配 置 属性 
才能 优化 。 比 如 ，Hive 支持 各 种 不 同 的 分 布 式 关联 : map 关联 (也 称 散 列 关联 )、 分 桶 关 
联 (bucketed join)、 排 序 后 分 桶 合并 关联 (sorted bucketed merge join) 与 常规 关联 ， 等 等 。 
如 果 数 据 集 符合 特定 的 先决 条 件 ， 那 么 与 其 他 关联 相 比 ， 某 些 关联 策略 可 能 会 带 来 更 好 的 
性 能 。 但 是 ， 因 为 较 旧版 本 的 Hive 无 法 自动 选择 正确 的 关联 策略 ， 所 以 Hive 编译 器 会 依 
赖 查询 代码 的 提示 来 选择 正确 的 关联 策略 。 较 新 版 本 的 Hive 能 够 自动 选择 关联 策略 ， 而 
且 随 着 项 目的 不 断 改进 ，Hive 也 会 自动 完成 越 来 越 多 的 优化 。 


同样 需要 注意 的 是 ， 尽 管 SQL 有 助 于 查询 ， 但 是 它 并 不 是 表达 所 有 数据 处 理 格 式 的 最 佳 语 
言 。 对 于 每 一 个 用 SQL 表达 的 数据 处 理 问 题 ， 你 都 需要 看 一 下 SQL 是 否 适合 。 换 句 话说 ， 
要 考虑 这 个 问题 会 不 会 让 SQL 为 难 。 使 用 简单 过 滤 与 聚合 带 来 的 问题 适合 SQL。 比 如 ， 
如 果 想 要 知道 上 个 月 Twitter 上 最 活跃 的 用 户 ， 用 SQL 查询 会 非常 方便 (假定 你 能 够 访问 
Twitter 的 数据 集 )。 你 只 需要 计算 每 一 位 用 户 的 活动 次 数 ， 然 后 得 出 活动 次 数 最 高 的 用 户 。 
另 一 方面 ， 机 器 学 习 、 文 本 处 理 与 图 算法 通常 不 适合 使 用 SQL。 如 果 需 要 根据 兴趣 和 好 友 
筛选 向 Twitter 用 户 展 示 的 广告 ， 那 么 SQL 不 是 恰当 的 工具 。 


与 Pig 相似 ，Hive 是 一 种 MapReduce 上 的 抽象 工具 (除非 使 用 前 面 讲 过 的 较 新 的 执行 引 
擎 )。 这 表明 Hive 隐藏 了 后 面 的 所 有 MapReduce 任务 。 用 户 仍然 应 该 养 成 习惯 ， 查 看 Hive 
究竟 在 背后 做 了 什么 ， 以 保证 Hive 按照 用 户 的 想法 执行 任务 。 用 户 只 需 在 查询 命令 前 面 简 
单 地 增加 一 个 词 EXPLAIN。 下 一 个 例子 就 会 讲 到 filter-join-filter 查询 查询 规划 的 内 容 。 


就 像 你 在 查询 规划 中 看 到 的 那样 ，SQL 查询 映射 为 Hive 数据 处 理 的 3 个 阶段 。 注 意 本 例 
中 的 第 3 个 阶段 ，Hive 自动 判断 出 要 执行 一 个 map 关联 (而 不 是 性 能 较 差 的 常规 关联 )。 
第 3 阶段 根据 SELECT * FROM foo f WHERE f.fooVal <509 的 结果 生成 一 个 哈 希 表 。 哈 希 表 
在 关联 时 会 存储 到 集群 所 有 节点 的 内 存 中 。 然 后 ， 如 第 4 阶段 所 示 ， 数 据 从 bar 表 读 取 ， 
并 与 内 存 中 包含 foo 表 过 滤 值 的 哈 希 表 进行 关联 操作 。 
EXPLAIN SELECT * 

> FROM foo f JOIN bar b ON (f.fooBarId = b.barId) 

> WHERE f.fooVal < 500 AND 

> f.fooVal + b.barVal < 1000 


> 





















































































































































OK 
ABSTRACT SYNTAX TREE: 


STAGE DEPENDENCIES: 
Stage-4 is a root stage 
Stage-3 depends on stages: Stage-4 
Stage-0 is a root stage 


STAGE PLANS: 
Stage: Stage-4 
Map Reduce Local Work 
Alias -> Map Local Tables: 
f 
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Fetch Operator 
limit: -1 
Alias -> Map Local Operator Tree: 
不 
TableScan 
alias: f 
Filter Operator 
predicate: 
expr: (fooval < 500) 
type: boolean 
HashTable Sink Operator 
condition expressions: 
0 {fooid} {fooval} {foobarid} 
1 {barid} {barval} 
handleSkewJoin: false 
keys: 
0 [Column[foobarid]] 
1 [Column[barid]] 
Position of Big Table: 1 


Stage: Stage-3 
Map Reduce 
Alias -> Map Operator Tree: 
b 
TableScan 
alias: b 
Map Join Operator 
condition map: 
Inner Join 0 to 1 
condition expressions: 

0 {fooid} {fooval} {foobarid} 

1 {barid} {barval} 
handleSkewJoin: false 
keys: 

0 [Column[foobarid]] 

1 [Column[barid]] 
outputColumnNames: _col0, _col1, _col2, _col5, _col6 
Position of Big Table: 1 
Filter Operator 

predicate: 

expr: ((_coL1 < 500) and ((_coL1 + _coL6) < 1000)) 
type: boolean 

Select Operator 

expressions: 
expr: _col0 
type: bigint 
expr: _coll 
type: int 
expr: _col2 
type: bigint 
expr: _col5 
type: bigint 
expr: _col6 
type: int 

outputColumnNames: _col0, _col1, _col2, _col3, _col4 
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3 


File Output Operator 
compressed: false 
GlobalTableld: 0 
table: 
input format: org.apache.Hadoop.mapred.TextInputFormat 
output format:\ 
org.apache.Hadoop.Hive.ql.io.HiveIlgnoreKeyTextOutputFormat 
serde: org.apache.Hadoop.Hive.serde2.lazy.LazySimpleSerDe 

Local Work: 
Map Reduce Local Work 


Stage: Stage-0 
Fetch Operator 
limit: -1 


.6.3 ” Hive 使 用 场景 


尽管 本 章 主要 探讨 使 用 Hive 进行 数据 处 理 与 查询 的 场景 ， 但 我 们 需要 指出 ，Hive 的 一 部 


分 





( 即 Hive 元 数据 存储 ) 已 经 成 为 Hadoop 生态 系统 中 元 数据 存储 的 事实 标准 ( 表 名 、 列 


名 、 类 型 等 )， 详 情 参 见 1.4。 因 此 ， 无 论 使 用 哪 种 引擎， 配置 和 使 用 Hive 元 数据 存储 来 
存储 元 数据 都 是 最 常见 的 选择 。 





当然 ，Hive 也 适用 于 各 种 采用 SQL 表达 的 数据 查询 ， 尤 其 是 容错 要 求 高 且 长 期 运行 的 数 


据 查 询 。 除 了 数据 查询 ， 如 果 想 要 写 入 特点 丰富 、 容 错 且 批 处 理 (也 就 是 说 ,不 是 近 实 时 


的 


) 的 变换 ， 或 者 在 插件 式 的 SQL 引擎 中 执行 ETL 任务 ，Hive 也 是 不 错 的 选择 。 让 我 们 


进一步 讨论 这 些 特点 。 


SQL 

对 于 Hadoop 来 说 ，Hive 是 一 种 SQL 引擎 。Impala 与 其 他 一 些 未 讨论 的 引擎 (如 Apache 
Drill 与 Spark-SQL) 也 如 此 。 所 以 ， 如 果 想 以 SQL 的 方式 编写 查询 语句 ， 那 么 你 应 该 仅 
使 用 这 种 类 别 的 引擎。 


插件 式 

Hive 可 能 是 生态 系统 中 插件 式 (pluggable) 支持 最 好 的 SQL 引擎 。 这 里 所 说 的 播 件 式 
体现 在 很 多 方面 。Hive 支持 自 定义 数据 格式 、 数 据 序列 化 和 反 序列 化 (Hive SerDes)。 
用 户 也 能 改变 Hive 底层 的 执行 引擎 ， 可 以 从 MapReduce 改变 成 Tez， 再 变 为 Spark (本 
书写 作 时 仍 在 进行 中 )。 所 以 ， 如 果 很 需要 支持 底层 的 通用 执行 引擎 之 间 的 切换 ， 那 么 
Hive 可 能 是 一 个 不 错 的 选择 。 

批 处 理 

Hive 是 一 种 批 处 理 引 擎 。 这 意味 着 你 不 能 实时 地 获取 结果 。 一 般 来 说 ， 其 他 引擎 (如 
Impala) 的 确 比 Hive 速度 快 。 因 此 ， 如 果 你 对 性 能 要 求 很 高 ， 那 么 Hive 不 是 最 好 的 选择 。 
容 氏 

Hive 是 支持 容错 (fault-tolerant) 的 ， 而 其 他 引擎 (如 Inpala) 在 本 书写 作 时 是 不 支 
持 容 错 的 。 这 意味 着 ， 如 果 处 理 部 分 数据 查询 的 节点 在 运行 时 出 现 错误 ， 那 么 Impala 
的 整个 查询 将 失败 ， 但 是 在 Hive 中 ， 底 层 的 任务 将 会 重 试 。 如 果 数 据 查 询 长 达 数 小 时 ， 
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重 试 当然 不 可 取 ， 但 是 如 果 数 据 查 询 的 时 间 较 短 ， 那 么 从 客户 端 重新 提交 查询 即 可 。 
此 ， 如 果 容 错 很 重要 ， 那 么 一 般 来 说 Hive 是 可 以 选用 的 。 

。 功能 强大 
如 果 Hive 的 速度 很 慢 ， 我 们 为 什么 还 要 使 用 它 呢 ? Hive 是 Hadoop 上 最 成 熟 的 SQL 引 
敬 。 因 此 ， 在 本 书写 作 时 ，Hive 所 包含 的 功能 和 特点 比 新 的 引擎 要 多 很 多 。 比 如 , 在 
写作 本 书 时 ，Impala 就 不 支持 舱 套 数据 类 型 (struct、array、map 等 )。 如 果 支 持 网 套 
格式 很 重要 ， 那 么 Hive 可 能 是 一 个 不 错 的 选择 。 





























3.7 Impala 


截止 到 2012 年 ，Hadoop 已 经 在 许多 应 用 场景 上 大 展 身 手 ， 但 是 仍然 只 是 作为 一 个 低 成 本 
的 存储 和 批 处 理 ETL 平台 存在 。 恰 逢 其 时 ，Google 公开 了 两 篇 描述 低 延 迟 查 询 引擎 的 论 
文 : 一 篇 涉及 名 为 Fl 的 支持 容错 的 分 布 式 SQL 数据 库 ， 一 篇 涉及 名 为 Dremel 的 可 扩展 
的 交互 式 即 席 查 询 引 擎 。 在 2012 年 ，Impala 发 布 了 。 这 是 一 个 Hadoop 之 上 的 开源 、 低 延 
述 SQL 引擎 ， 这 一 项 目 受 到 了 Google Dremel 论文 的 局 发 。 


Impala 与 当时 Hadoop 生态 圈 中 其 他 的 项 目 不 同 ， 它 的 基础 不 是 MapReduce。Impala 设 
计 之 初 就 优化 了 延迟 ， 它 的 架构 与 传统 的 大 规模 并 行 处 理 (Massively Parallel Processing， 
MPP) 数据 仓库 (如 Netezza、Greenplum、Teradata) 相似 。Impala 提供 了 近似 于 传统 数 
据 仓 库 的 查询 延迟 和 查询 并 发 度 ， 延 迟 比 MapReduce 上 运行 的 Hive 要 低 很 多 。 


为 了 避免 在 Hadoop 上 形成 数据 孤岛 ，Impala 复 用 了 Hive 的 SQL 方言 ， 并 使 用 了 Hive 的 
元 数据 服务 。 如 此 ， 表 只 需 定 义 一 次 ， 就 可 以 在 Hive、Pig 和 Impala 中 使 用 了 。 与 Hive 
相似 的 是 ，Impala 支持 将 HDFS 和 HBase 作为 数据 源 ， 并 支持 大 多 数 的 常见 数据 格式 (分 
隔 符 文 本 、SequenceFile、Avro 及 Parquet) 。 这 一 点 使 得 Impala 可 以 直接 查询 Hadoop 上 
的 所 有 数据 ， 而 不 需要 特殊 的 转换 操作 。 












































想 要 了 解 更 多 关于 Impala 的 更 多 细节 ， 请 访问 Inpala 网 站 (http://impala. 
io/) ， 参 考 John Russell 的 Getting Started with Impala。 


另外 ， 如 本 章 先前 提 到 的 ， 还 有 其 他 一 些 开源 项 目 支持 Hadoop 上 的 低 延 迟 查询 处 理 。 包 
括 Presto 项 目 (http://prestodb.io/) 和 Apache Drill 项 目 (http://drill.apache.org/)。 





3.7.1 Impala 概 述 


Impala 的 架构 是 无 共享 的 ， 这 使 得 Impala A 用 户 和 并 
发 查询 不 断 增加 ，Impala 仍然 可 以 保持 高 性 全 
Impala 从 架构 角度 包含 了 Impala 后 台 程 序 Pa 、 目 录 服 务 与 statestore。Impala 后 


台 程 序 在 集群 的 每 一 个 节点 上 运行 ， 每 一 个 impalad 都 可 以 作为 查询 规划 器 、 查 询 优化 器 
及 查询 执行 引擎 。 客 户 端 连接 Impala， 可 以 使 用 JDBC、ODBC、impala-shell 或 直接 使 用 
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Apache Thrift (http://thrift.apache.org/) 连接 到 任意 一 个 impalad 上 。 所 有 的 impalad 都 相 
同 ， 可 以 互 换 。 因 此 通常 情况 下 客户 端 要 连接 到 一 个 负载 均衡 器 上 ， 通 过 负载 均衡 器 将 连 
接 转 发 到 活动 状态 的 impalad。 客 户 端 连接 的 impalad 会 作为 当前 查询 的 查询 规划 器 和 查询 
协调 器 。 

查询 规划 器 的 职责 在 于 解析 给 定 的 SQL 语句 ， 并 产生 一 个 查询 计划 。 查 询 协调 器 以 查询 计 
划 作 为 输入 ， 将 计划 的 各 个 部 分 分 配 到 各 个 impalad 上 执行 。Impala 的 架构 如 图 3-11 所 示 。 


























DataNode 














图 3-11 : Impala 架构 





注意 ， 与 其 他 数据 库 管 理 系统 (如 RDBMS) 不 同 的 是 ，Impala 并 没有 实现 底层 的 数据 存 
储 ， 因 为 它 将 数据 存储 到 了 HDFS 和 HBase 中 。Impala 也 不 是 必须 要 实现 数据 表 和 数据 库 
的 管理 方案 ， 因 为 Hive 元 数据 服务 已 经 实现 了 这 些 工作 。 这 就 可 以 让 Impala 专 广 于 它 的 
核心 功能 ， 即 尽 可 能 高 效 地 执行 查询 语句 。 

因为 Impala 要 在 Hadoop 上 做 一 个 分 布 式 的 MPP 数据 库 ， 所 以 需要 实现 MPP 数据 库 中 常 
见 的 各 种 分 布 式 关联 策略 。 本 书写 作 时 ，Impala 实现 了 两 种 关联 策略 : 广播 式 散 列 关联 
(broadcast hash join) 及 分 区 后 散 列 关联 (partitioned hash join) 。 如 果 读 者 希望 了 解 这 些 关 
联 策略 的 内 部 原理 及 在 Impala 中 的 实现 方式 ， 请 参阅 附录 A。 


3.7.2 面向 高 速 查询 的 设计 

与 SQL-in-Hadoop 解决 方案 相 比 ，Impala 有 一 些 设计 上 的 考虑 能 够 降低 查询 延迟 。 

1. 高 效 利用 内 存 

Impala 完全 重 写 了 查询 引擎 ， 不 会 受 限于 MapReduce 引擎 。 初 次 扫描 数据 表 时 ， 数 据 会 从 
磁盘 上 读 取 。 接 下 来 ， 随 着 多 个 处 理 阶段 的 进行 ， 数 据 会 保存 在 内 存 中 。 即 使 在 不 同 的 节 
点 上 进行 了 Shuffle 操作 ， 数 据 也 会 直接 通过 网 络 分 发 ， 分 发 之 前 不 会 先 写 到 磁盘 上 。 也 就 
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是 说 ， 随 着 查询 变 得 更 加 复杂 ， 需 要 更 多 的 处 理 阶段 ，Impala 性 能 的 提升 也 会 变 得 更 为 显 
著 。 相 比 之 下 ，Hive 在 每 个 阶段 都 要 进行 比较 慢 的 磁盘 数据 读 取 ， 结 束 时 还 要 写 入 磁盘 。 


这 并 非 意味 着 Impala 只 能 处 理 中 间 计 算 结 果 可 以 放 入 到 内 存 中 (聚合 后 ) 的 查询 。 最 初版 
本 的 Impala 对 较为 消耗 内 存 的 查询 存在 这 样 的 限制 。 这 类 的 查询 包括 关联 (要求 过 滤 后 的 
小 表 能 够 放 入 集群 的 内 存 中 )、 排 序 (单个 布点 在 内 存 中 执行 部 分 排序 操作 )、 分 组 和 去 重 
(每 个 去 重 后 的 键 会 存储 到 内 存 中 以 便 聚 合 )。 然 而 ， 在 Impala 2.0 及 后 续 版 本 中 ，Impala 
支持 将 超过 内 存 的 中 间 结 果 集 吐 到 磁盘 上 。 因 此 ， 使 用 新 版 本 的 Impala， 查 询 语 句 不 会 受 
限于 这 种 对 中 间 结 果 的 硬性 内 存 限制 。Impala 仍 会 将 数据 放 入 内 存 ， 计 算 方式 也 和 从 前 一 
样 ， 但 数据 会 在 必要 的 时 候 吐 到 磁盘 ， 然 后 再 读 取 ， 尽 管 这 样 导致 了 较 高 的 IO， 降 低 了 
性 能 。 

通常 情况 下 ， 与 基于 MapReduce 的 处 理 相 比 ，Impala 在 提高 性 能 时 需要 多 得 多 的 节点 内 
存 。 这 里 推荐 每 个 节点 拥有 最 小 128~256GB 内 存 。Impala 会 尽 可 能 地 多 占用 内 存 ， 而 不 
是 使 用 磁盘 资源 。 这 样 做 的 一 个 缺点 在 于 : 当 一 个 节点 失 联 时 ，Impala 将 无 法 恢复 查询 ， 
而 MapReduce、Hive 可 以 。 如 果 Impala 查询 处 于 执行 过 程 中 ， 而 某 个 节点 失 联 ， 那 么 这 
个 查询 就 会 失败 。 不 过 ， 在 能 够 快速 运行 的 查询 场景 上 ， 如 果 查 询 失 败 只 需 重启 整个 查 
询 ， 那 么 Impala 仍然 是 可 取 的 。 大 概 花 费 几 秒 钟 或 五 分 钟 左右 的 查询 可 以 接受 重启 。 不 
过 ， 如 果 超 过 一 个 小 时 才能 完成 查询 ， 那 么 使 用 Hive 更 为 合适 。 

2. 长 期 运行 的 后 台 服 务 

与 Hive 使 用 的 MapReduce 引擎 不 同 ，Impala 后 台 服 务 是 长 期 运行 的 进程 。 由 于 Impala 一 
直 处 于 运行 状态 ， 执 行 一 个 查询 语句 不 会 启动 开销 ， 也 不 会 有 JAR 包 的 网 络 传输 ， 或 者 
类 文件 的 加 载 。 有 人 可 能 会 问 : 是 否 可 以 在 运行 MapReduce 任务 的 节点 上 运行 Impala 后 
台 服 务 ? 还 是 需要 在 独立 的 节点 上 运行 ? 我 们 推荐 在 所 有 的 DataNode 上 运行 Inpala， 与 
MapReduce 和 其 他 处 理 引 擎 共存 。 这 样 就 可 以 保证 Impala 能 够 通过 本 地 节点 而 不 是 网 络 传 
输 〈 即 所 谓 的 数据 本 地 性 ) 读 取 数 据 ， 这 一 点 是 减少 延迟 所 必须 的 。Impala 与 其 他 处 理 引 
擎 间 的 资源 竞争 可 以 通过 YARN 动态 管理 ， 通 过 Linux CGroups 静态 分 配 。 

3. 高 效 的 执行 引擎 

Impala 是 使 用 C++ 语言 实现 的 。 这 样 做 使 Impala 代码 更 为 高 效 ， 人 允许 单 个 Impala 进程 使 
用 大 量 的 内 存 ， 而 不 受 Java 垃圾 回收 机 制 (Garbage Collection，GC) 的 延迟 影响 。 而 且 ， 
Impala 还 可 以 更 好 地 利用 向 量化 及 特定 CPU 指令 ， 以 进行 文本 解析 、CRC32 计算 等 ， 因 
为 通过 JVM 是 无 法 访问 这 些 硬 件 特性 的 。 

4. 对 LLVM 的 使 用 

Impala 有 一 项 重要 的 性 能 优化 的 技术 : 使 用 底层 虚拟 机 (Low Level Virtual Machine， 
LLVM) 编译 查询 ， 将 查询 中 使 用 的 所 有 方法 编译 成 优化 的 机 器 码 。 这 样 做 可 以 在 多 个 方 
看 加 速 Impala 查询 。 首 先 ， 机 器 码 中 不 包含 多 态 (使 用 Java 实现 时 需要 对 其 处 理 )， 可 以 
提高 CPU 对 代码 的 执行 性 能 。 其 次 ， 产 生 的 机 器 码 使 用 了 现代 CPU (如 Sandy Bridge 系 
列 ) 提供 的 优化 机 制 ， 能 够 提高 VO 性 能 。 第 三 ， 因 为 整个 查询 及 其 方法 编译 在 同一 个 执 
行 上 下 文中 ， 所 有 的 方法 调用 均 是 内 联 的 ， 所 以 Impala 不 需 切 换 上 下 文 ， 在 指令 流水 线 上 
也 没有 分 支 ， 这 会 让 整个 执行 过 程 更 快 。 
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Impala 的 LLVM 代码 生成 可 以 通过 设置 disable_codegen 来 关闭 。 这 样 做 通常 是 为 了 解决 
问题 ， 不 过 这 样 也 可 以 准确 地 看 到 代码 生成 对 查询 有 多 大 益处 





3.7.3 Impala 示 例 


> 然 Impala 内 部 工作 看 起 来 相当 复杂 ， 但 使 用 起 来 相当 简单 。 启 动 impala-shell (Impala 
的 命令 行 接口 ) 就 可 以 提交 如 下 查询 。 


CONNECT <impalad 主 机 名 或 负载 均衡 器 的 地 址 >; 


-- 确 保 Impala 从 Hive 元 数据 服务 中 获得 了 最 新 的 元 数据 信息 
INVALIDATE METADATA; 












































SELECT 
* 


FROM 

foo f JOIN bar b ON (f.fooBarId = b.barId) 
WHERE 

f.fooVal < 500 AND 

f.fooVal + b.barVal < 1000; 


上 面 的 代码 连接 到 Impala， 通 过 Hive 更 新 了 元 数据 ， 并 执行 了 我 们 的 查询 。 跟 本 音 前 面 
的 MapReduce 代码 相 比 ， 大 多 数 的 开发 者 更 偏爱 SQL 版 本 ， 你 可 以 从 这 里 看 出 缘由 。 


想 要 在 Impala 中 查看 执行 计划 ， 在 查询 语句 前 面 添加 一 个 EXPLAIN 即 可 。 这 一 点 与 Hive 
相同 ， 不 过 二 者 产生 的 查询 计划 完全 不 同 。 因 为 Impala 实现 了 一 个 MPP 架构 的 数据 仓库 ， 
查询 计划 使 用 跟 Oracle 和 Netezza 类 似 的 操作 符 。 而 Hive 产生 基于 MapReduce 的 查询 计 
划 ， 二 者 有 非常 大 的 差异 。 


如 下 是 查询 对 应 的 查询 计划 。 





























Estimated Per-Host Requirements: Memory=32.00MB VCores=2 
WARNING: The following tables are missing relevant table 
and/or column statistics. 
default.bar, default.foo 


| 
| 
| 
| 
| 
04:EXCHANGE [PARTITION=UNPARTITIONED] | 
| 

02:HASH JOIN [INNER JOIN, BROADCAST] | 
hash predicates: f.fooBarId = b.barId | 
other predicates: f.fooVal + b.barVal < 1000 | 
| 

--03:EXCHANGE [BROADCAST] | 
| 

| 

| 

| 

| 

| 

| 


01:SCAN HDFS [default.bar b] 
partitions=1/1 size=7.61KB 


We 


0:SCAN HDFS [default.foo f] 
partitions=1/1 size=1.04KB 
predicates: f.fooVal < 500 
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我 们 可 以 看 到 ，Impala 首先 会 扫描 数据 表 foo， 并 使 用 查询 语句 中 的 谓词 过 关 。 查 询 计划 
中 包含 了 过 滤 谓 词 以 及 过 滤 后 的 数据 表 大 小 (这 一 数值 是 Inpala 优化 器 估算 的 )。 过 滤 操 
作 符 的 输出 通过 广播 式 关联 的 策略 与 表 bar 关联 。 查 询 计划 还 包括 关联 依据 的 列 及 另外 一 
个 过 滤器 。 


Impala 还 有 一 个 Web 界面 ， 在 每 个 impalad 的 25 000 端口 上 运行 。 这 一 Web 界面 展示 了 
查询 的 概述 (Query Profile)。Query Profile 与 查询 计划 类 似 ， 但 是 它 在 查询 语句 执行 后 生 
成 。 除 了 估算 的 大 小 之 外 ，Query Profile 还 包含 其 他 的 运行 时 信息 ， 比 如 扫描 数据 表 的 速 
度 、 数 据 的 实际 大 小 、 内 存 的 使 用 量 、 执 行 时 间 ， 等 等 。 这 些 信息 对 提高 查询 性 能 有 很 大 
的 帮助 。 


3.7.4 Impala 使 用 场景 


正如 我 们 之 前 讨论 的 ， 在 Hadoop 上 执行 SQL， 有 若干 工具 可 以 选择 。Hive 是 其 中 使 用 最 
广泛 的 。 那 么 什么 时 候 使 用 Hive， 什 么 时 候 使 用 Impala 呢 ? 


我 们 认为 问题 的 答案 取决 于 具体 的 使 用 场景 。 更 有 意思 的 是 ， 随 着 Hive 和 Impala 的 发 
展 ， 答 案 也 会 发 生 改 变 。 截 至 本 书写 作 时 ，Impala 比 MapReduce 上 运行 的 Hive 要 快 许 
多 ， 并 支持 高 度 的 并 发 查询 ， 但 是 Impala 在 容错 方面 不 如 Hive， 也 不 支持 Hive 的 全 部 特 
性 (如 复杂 数据 类 型 map、struct、array 等 )。 因 此 ， 对 于 要 求 高 性 能 的 场景 ， 我 们 推荐 使 
用 Impala。 尤 其 是 有 上 百 个 用 户 需 要 在 Hadoop 上 并 发 地 执行 SQL 查询 的 时 候 ，Impala 可 
以 很 好 地 进行 扩展 ， 满 足 这 一 需求 。 不 过 ,假如 你 的 查询 需要 扫描 非常 多 的 数据 (如 上 百 
TB)， 那 么 使 用 Impala 也 需要 特大 量 的 IJO， 查 询 也 需要 几 个 小 时 。 对 于 这 样 的 场景 ， 节 
点 故障 不 可 以 强制 要 求 重启 恢复 查询 。 我 们 推荐 在 这 样 的 场景 下 使 用 Hive。 另 外 需要 指出 
的 是 ， 在 本 书写 作 的 时 候 ，Impala 并 不 支持 Hive 上 的 某 些 特性 。 其 中 最 重要 的 一 点 就 是 
对 幢 套 数据 类 型 处 理 的 支持 (这 一 点 Inpala 已 经 在 开发 了 )。 因 此 ， 如 果 你 的 应 用 必须 要 
有 嵌 套 数据 类 型 ， 那 么 我 们 还 是 推荐 使 用 Hive。 随 着 Hive 与 Impala 的 发 展 ， 它 们 之 间 的 
差距 会 越 来 越 小 。 

另外 一 个 影响 选择 的 重要 因素 是 定制 化 文件 格式 的 支持 情况 。Hive 支持 这 个 生态 系统 中 所 
有 常用 的 文件 格式 〈 如 带 分 隔 符 的 文本 、Parquet、Avro、RCFile、SequenceFile) ， 也 可 以 
通过 实现 一 个 可 播 拔 的 SerDe (Serializer/Deserializer) 支持 自 定义 的 文件 格式 (如 JSON ) 。 
而 Impala 只 支持 Hadoop 上 的 常用 文件 格式 ， 不 支持 自 定义 的 文件 格式 。 在 这 种 情况 下 ， 
可 以 使 用 Hive 直接 读 取 特 定格 式 的 数据 ， 或 者 使 用 Hive 将 数据 转换 成 Hadoop 生态 系统 
中 的 常用 文件 格式 ， 再 使 用 Impala 进行 查询 处 理 。 别 无 他 法 。 


另外 还 要 注意 ， 虽 然 在 Impala 与 Hive 中 进行 选择 有 些 难度 ， 在 二 者 之 间 切 换 是 非常 简 
单 的 。 因 为 二 者 都 使 用 了 相同 的 元 数据 服务 。 举 例 来 说 ，Impala 可 以 读 取 Hive 中 创建 的 
Hive 表 ， 反 之 亦 然 。 你 不 需要 在 两 个 系统 之 间 进 行 额 外 的 转换 操作 。 


3.8 小 结 


本 章 伊始 就 提 到 ， 我 们 的 目标 不 是 深入 介绍 Hadoop 上 现存 的 所 有 处 理 引 擎 ， 而 是 概述 常 
用 的 数据 处 理 候选 工具 ， 使 你 能 够 为 特定 的 应 用 场景 确定 合适 的 工具 。 本 章 还 要 就 你 感 兴 
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趣 的 工具 提供 恰当 的 参考 资料 。 

第 4 章 会 使 用 本 章 提 及 的 一 些 工具 ， 介 绍 一 些 常见 处 理 范 式 的 实现 。 第 5 章 会 讨论 特定 的 
软件 库 和 API (如 GraphX 和 Giraph) 如 何 支持 Hadoop 上 的 图 处 理 需 求 。 另 外 ， 我 们 还 会 
谈 到 其 他 的 软件 库 和 API 如 何 帮助 实现 Hadoop 上 的 应 用 。 我 们 没有 那么 多 篇 幅 进行 详细 
介绍 ， 不 过 有 些 内 容 的 确 值得 进一步 探索 和 了 解 ， 如 下 所 示 。 





























RHadoop 

在 数据 分 析 中 ，R 语言 一 直 很 流行 ， 所 以 很 多 人 对 使 用 R 语言 处 理 大 数据 很 感 兴 

R 语言 自身 的 实现 对 处 理 海 量 数据 产生 了 一 些 挑 战 ， 不 过 一 些 开 源 项 目 提 供 了 处 理 
Hadoop 数据 的 R 语言 接口 。 这 里 面 最 为 突出 的 就 是 RHadoop。RHadoop 实际 上 是 一 些 
项 目的 集合 ， 包 括 rmr (提供 了 使 用 R 语言 实现 MapReduce 应 用 的 接口 )。 

Apache Mahout 

Mahout (http://mahout.apache.org/) 是 一 个 提供 通用 机 器 学 习 算 法 实现 的 软件 库 ， 包 括 
推荐 系统 、 分 类 、 聚 类 等 。 虽 然 该 项 目的 目标 是 对 可 扩展 的 机 器 学 习 算法 提供 可 扩展 的 
实现 ， 不 过 Mahout 中 的 实现 并 不 都 支持 并 行 ， 也 未 必 都 设计 得 可 以 在 Hadoop 上 运行 。 
除了 通用 的 机 器 学 习 算 法 ，Mahout 项 目 中 还 包括 处 理 其 他 任务 的 软件 库 。 想 要 了 解 更 
多 Mahout 的 相关 知识 ， 请 参照 其 主页 或 《Mahout 实战 》”。 




































































Oryx 

Oryx (https://github.com/OryxProject/oryx) 是 一 个 利用 Lambda (http://lambda-architecture. 
net/) 架构 辅助 搭建 机 器 学 习 应 用 的 项 目 。 它 还 处 于 项 目 初期 ， 希望 能 够 提供 在 Hadoop 
上 部 署 分 析 模 型 的 平台 化 支持 。 

Python 

Python 是 一 门 当 之 无 愧 的 流行 语言 ， 对 于 数据 科学 家 来 说 更 是 如 此 。 如 果 选 择 了 
Python， 那 么 昕 到 这 个 消息 你 一 定 很 高 兴 : 有 许多 框架 都 有 意 让 Python 在 Hadoop 上 
得 到 更 为 充分 的 利用 。 对 于 这 些 框架 的 介绍 ， 请 参见 Uri Laserson 所 著 的 4 Guide to 
Python Frameworks for Hadoop。 










































































主 5: 此 书 已 由 人 民 邮 电 出 版 社 出 版 。 一 一 编者 注 








Hadoop 数 据 处 理 | 103 
图 灵 社 区 会 员 largelove(largelove@163.com) 专 享 尊重 版 权 


第 4 章 


Hadoop 数 据 处 理 通用 范式 





了 解 了 Hadoop 上 数据 的 访问 方式 和 处 理 方 式 之 后 ， 我 们 接 下 来 讨论 如 何 使 用 第 3 章 提 到 
的 工具 解决 一 些 常 见 的 问题 。 本 章 会 涵盖 以 下 三 种 数据 处 理 任务 ， 它 们 也 是 Hadoop 上 数 
据 处 理 常 见 的 通用 范式 ， 在 实现 上 具有 一 定 的 难度 。 

。 依 主键 (primary key) 移 除 重复 记录 (合并 去 重 )。 

。 使 用 数据 开 窗 分 析 。 

。 更 新 时 间 序 列 数据 。 

接 下 来 ， 我 们 会 详细 讨论 以 上 范式 的 具体 细 市 ， 并 重点 关注 它们 的 实现 ， 包 括 Spark 和 
SQL (对 应 Impala 与 Hive) 的 使 用 。 我 们 并 未 提供 MapReduce 版 本 的 实现 ， 这 是 因为 
MapReduce 在 这 些 逻 辑 的 实现 上 较为 复杂 和 宛 长 ,而且 人 们 也 正 向 新 型 的 处 理 框架 (如 
Spark) 和 数据 抽象 (如 SQL) 靠拢 。 


4.1 模式 一 : 依 主键 移 除 重复 记录 


Hadoop 上 的 数据 经 常 存在 重复 的 记录 ， 原 因 如 下 。 


。 数据 采集 阶段 存在 重复 发 送 
正如 本 书 中 提 到 的 那样 ， 确 保 仅 发 送 一 次 记录 是 一 件 不 容易 的 事情 ， 而 且 数 据 采 集 过 程 
通常 不 会 去 处 理 重复 的 记录 。 

。 记录 更 新 时 的 增 量 数据 
HDFS 是 一 个 “一 次 写 入 ， 多 次 读 取 ”的 文件 系统 。 记 录 级 的 更 改 对 于 HDFS 来 讲 并 不 
容易 。 如 果 用 例 场 景 中 有 增 量 数据 ， 那 么 在 Hadoop 上 也 会 有 对 应 主键 (或 复合 主键 ) 
的 数据 集 ， 更 新 后 的 记录 会 添加 到 这 个 数据 集中 。 
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本 章 会 介绍 如 何 处 理 第 一 类 原因 造成 的 完全 重复 记录 。 其 他 问题 在 别 的 章节 探讨 〈 比 如 ， 
第 8 章 的 点 击 流 案例 研究 将 讨论 第 二 类 重复 )， 记 录 的 更 新 在 示例 中 介绍 。 这 种 更 新 需要 
重 写 已 有 的 数据 集 ， 以 保证 只 展示 记录 的 最 新 版 本 。 

如 果 熟 悉 HBase， 你 会 发 现 这 与 HBase 的 工作 方式 类 似 。 从 上 层 看 ，HBase 的 一 个 Region 
里 有 HFile， 基 中 包含 一 个 键 及 其 对 应 值 。 加 入 新 数据 时 ， 这 里 会 产生 另外 一 个 包含 键 和 
值 的 HFile。 执 行 合 并 (compaction) 这 一 清理 数据 的 过 程 时 ，HBase 会 按键 合并 ， 删 除 重 
复数 据 ， 如 图 4-1 所 示 。 












































合并 后 的 HFile 


列 
Foo 
Bar 
Foo 


Foo 














4-1 : HBase 的 合并 示例 


注意 在 以 上 示例 中 ， 我 们 忽略 了 其 他 一 些 复杂 的 内 容 ， 如 HBase 对 数据 多 版 本 的 支持 等 。 


4.1.1 去 重 示 例 的 测试 数据 生成 


在 讨论 这 一 模式 的 实现 示例 之 前 ， 首 先 看 一 下 生成 测试 数据 的 代码 。 我 们 将 使 用 Scala 对 
象 GenDedupInput， 其 功能 是 调用 HDFS 的 API， 在 HDFS 上 创建 文件 ， 并 写 入 以 下 格式 的 
记录 。 


{PrimaryKey}, {timeStamp}, {value} 


我 们 将 写 入 x 条 记录 ， 主 键 有 yy 种 不 同 的 取 值 。 这 就 意味 着 ， 如 果 设 定 x=100 和 y=10， 那 
么 我 们 需要 给 主键 的 每 个 独立 取 值 生成 大 约 10 条 重复 的 记录 。 


object GenDedupInput { 
def main(args:Array[String]): Unit = { 
if (args.length == 0) { 
printLn("{outputPath} {numberOfRecords} {numberOfUniqueRecords}") 
return 


} 


// 定 义 存储 数据 的 输出 文件 

val outputpPath = new Path(args(0)) 

//Number of records to be written to the file 
val numberOfRecords = args(1).toInt 

// 定 义 主 键 的 不 同 取 值 个 数 


val numberOfUniqueRecords = args(2).toInt 














// 打 开 HDFS 文 件 系 统 的 访问 句柄 
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val fileSystem = FileSystem.get(new Configuration()) 





// 创 建 一 个 带 缓冲 区 的 writer 
val writer = new BufferedWriter( 
new OutputStreamWriter(fileSystem.create(outputPath))) 








vaLr = new Random() 


// 以 下 循环 完成 全 部 记录 的 写 操作 

// 每 个 主键 的 不 同 取 值 对 应 若干 条 记录 

// 对 应 条 数 由 numberofRecords/number0fUniqueRecords 确 定 

for (i <- 0 until numberOfRecords) { 
val uniqueId = r.nextInt(numberOfUniqueRecords) 
// 单 条 记录 的 格式 为 :{key},， {timeStamp}，{value} 
writer.write(uniqueId + "," +i+"," + r.nextInt(10000)) 
writer.newLine() 


} 








writer.close() 


4.1.2 ”代码 示例 : 使 用 Scala 实 现 Spark 去 重 


现在 ， 我 们 完成 了 HDFS 上 测试 数据 的 创建 ， 接 下 来 关注 SparkDedupExecution 对 象 中 对 
记录 去 重 的 代码 。 








tt 


object SparkDedupExecution { 
def main(args:Array[String]): Unit = { 


if (args.length == 0) { 
printLn("{inputPath} {outputPpath}") 
return 


} 


// 设 定 传 入 参数 
val inputPath = args(0) 
val outputpPath = args(1) 


// 初 始 化 Spark 的 SparkConf 与 SparkContext 

val sparkConf = new SparkConf().setAppName("SparkDedupExecution") 
sparkConf.set("spark.cLeaner .ttL" ，"120000" ) ; 

val sc = new SparkContext(sparkConf) 


// 读 取 HDFS 上 的 数据 
val dedupOriginalDataRDD = sc.hadoopFile(inputPath, 
CLassof[TextInputFormat] ， 
classof[LongWritable], 
CLassof[Text] ， 
1) 


// 将 数据 解析 成 Key-Value 的 形式 

val keyVaLueRDD = dedupOriginalDataRDD.map(t => { 
val splits = t. 2.toString.split(",") 
(splits(0), (splits(1), splits(2)))}) 
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// 按 照 Key 进 行 Reduce 操 作 , 从 而 保证 每 个 主键 取 值 只 保留 一 条 记录 
val reducedRDD = 
keyValueRDD.reduceByKey((a,b) => if (a. 1.compareTo(b. 1) > 0) a else b) 








// 将 数据 格式 化 成 可 读 格式 ,并 写 回 到 HDFS 上 
reducedRDD 
.map(r => r. 1+","+r.2.1+","+r. 2. 2) 
.SaveAsTextFile(outputPath) 








} 
} 


我 们 将 代码 拆 解 开 ， 进 一 步 分 析 其 功能 。 跳 过 获取 用 户 参 数 、 生 成 SparkContext 的 初始 化 
代码 ， 让 我 们 关注 从 HDFS 获取 带 有 重复 记录 的 数据 的 代码 。 
val dedupOriginalDataRDD = sc.hadoopFile(inputPath, 

CLassof[TextInputFormat] ， 

CLassof[LongwritabtLe] ， 

CLassof[Text] ， 

1) 
在 Spark 中 ， 数 据 有 很 多 种 读 取 方 式 。 这 一 示例 中 使 用 hadoopFile() 方法 ， 以 便 描述 如 何 使 
用 输入 格式 。 如 果 有 MapReduce 方面 的 编程 经 验 ， 你 就 会 比较 熟悉 TextInputFormat， 这 是 
Hadoop 上 最 为 基础 的 输入 格式 。 在 Spark 或 MapReduce 任务 中 ,使 用 TextInputFormat 可 以 
将 输入 目录 解析 成 目录 下 的 文件 集合 ， 接 下 来 才 可 以 形成 由 不 同 子 任务 分 别处 理 的 数据 块 。 


接 下 来 的 一 段 代 码 首先 是 一 个 map() 函数 : 
val keyValueRDD = dedupOriginalDataRDD.map(t => { 
val splits = t. 2.toString.split(",") 
(splits(0), (splits(1), splits(2)))}) 
以 上 代码 将 会 在 不 同 的 Worker 上 并 行 执行 ， 将 输入 的 记录 解析 成 由 key 和 value 组 成 的 
Tuple 对 象 。 


这 种 键 值 结构 正 是 后 续 代 码 所 需要 的 ， 后 面 会 用 到 reduceByKey() 方法 。 根 据 方法 名 的 含 
义 可 以 猜测 到 ， 使 用 reduceByKey() 方法 首先 需要 一 个 key。 


接 下 来 ， 让 我 们 关注 调用 reduceByKey() 的 代码 片段 。 


val reducedRDD = 
keyVaLueRDD .reduceByKey((a,b) => if (a. 1.compareTo(b. 1) > 0) a else b) 


reduceByKey() 方法 的 参数 是 一 个 函数 ， 该 函数 输入 一 左 一 右 两 个 值 ， 输 出 一 个 相同 类 型 的 
值 。reduceByKey() 的 目标 是 合并 同一 个 key 的 所 有 value。 在 单词 统计 的 示例 中 ,使 用 该 
函数 可 以 累加 每 一 个 单词 的 个 数 ， 以 获得 总 数 。 在 本 示例 中 ， 输 出 的 a 和 b 是 字符 串 ， 返 
回 的 是 二 者 中 较 大 的 一 个 。 我 们 要 根据 主键 的 值 进行 Reduce 操作 ， 这 个 函数 可 以 确保 每 
一 个 主键 只 有 一 条 输出 记录 。 因 此 ， 这 里 基于 主键 选 出 的 最 大 的 键 值 进行 数据 去 重 。 
最 后 一 部 分 的 代码 将 结果 数据 写 回 HDFS。 

reducedRDD 


.map(r => r. 1+","+r.2.1+"," "+r. 2.2) 
.SaveAsTextFile(outputPath) 
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就 这 样 ，Spark 中 的 每 个 分 区 都 得 到 了 一 个 纯 文本 格式 文件 ， 这 与 MapReduce 任务 执行 后 
期 ， 为 每 一 个 Mapper 或 Reducer 输出 一 个 文件 的 机 制 相似 。 


4.1.3 ”代码 示例 : 使 用 SQL 实现 去 重 


现在 让 我 们 使 用 SQL 实现 去 重 一 一 更 准确 地 说 ， 是 使 用 HiveQL 实现 去 重 。 本 章 的 示例 
在 Hive 和 Impala 中 均 适 用 。 首 先 ， 我 们 用 一 条 数据 定义 语言 (Data Definition Language， 
DDL) 语句 将 测试 数据 放 到 数据 表 中 。 


CREATE EXTERNAL TABLE COMPACTION_TABLE ( 
PRIMARY_KEY STRING, 
TIME_STAMP BIGINT, 
EVENT_VALUE STRING 
) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','" 
STORED AS TEXTFILE 
LOCATION 'compaction data'; 


这 样 我 们 就 有 了 一 张 表 ， 接 下 来 ， 让 我 们 关注 执行 去 重 操作 的 语句 。 


SELECT 
A.PRIMARY_KEY, 
A.TIME_STAMP, 
MAX(A.EVENT_VALUE) 
FROM COMPACTION_TABLE A JOIN ( 

SELECT 

PRIMARY_KEY AS P_KEY， 

MAX(TIME_STAMP) as TIME_SP 

FROM COMPACTION_TABLE 

GROUP BY PRIMARY_KEY 

) B 
WHERE A.PRIMARY_KEY = B.P_KEY AND A.TIME_STAMP = B.TIME_SP 
GROUP BY A.PRIMARY_KEY，A.TIME_STAMP 


在 这 里 ， 我 们 执行 了 一 个 两 层 的 SQL 查询 。 内 层 SELECT 查询 的 作用 是 获取 对 应 最 新 TIME_ 
STAMP 的 所 有 不 同 的 PRIMARY_KEY 记录 。 外 层 的 SELECT 语句 则 根据 内 层 SELECT 语句 查询 的 
结果 ， 取 出 对 应 的 最 新 EVENT_VALUE 值 。 另 外 ， 要 注意 的 是 ， 我 们 使 用 MAX() 求 取 EVENT_ 
VALUE 的 最 大 值 ， 这 是 因为 我 们 只 需要 保留 单个 值 ， 如 果 同 一 个 时 间 惟 下 有 两 个 EVENT_ 
VALUE， 那 么 我 们 就 选择 较 大 的 那个 作为 去 重 后 的 记录 。 


人 六 2 
4.2 ”模式 二 : 数据 开 窗 分 析 
开 窗 函数 (windowing function) 支持 基于 一 定 的 窗口 (例如 特定 的 时 间 片 )， 在 有 序 的 寻 
件 序列 上 进行 扫描 操作 。 这 种 处 理 范 式 功 能 强大 且 用 途 广 泛 。 
。 在 金融 行业 ， 开 窗 函 数 可 以 用 来 研究 证 券 的 价格 变化 。 
。 在 传感器 监控 领域 ， 开 窗 国 数 可 以 基于 异常 值 预测 故障 。 
。 开 窗 函数 也 可 用 于 客户 流失 分 析 ， 基 于 客户 的 行为 模式 预测 客户 是 否 流 失 。 
。 在 游戏 领域 ， 开 窗 函 数 可 以 用 来 识别 用 户 从 新 手 到 专家 的 晋级 趋势 。 
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我 们 用 金融 领域 的 一 个 案例 来 深入 介绍 数据 开 窗 : 寻找 股票 价格 的 高 峰 与 低谷 ， 理 解 证 券 
价格 的 变化 。 高 峰 记 录 是 指 价格 高 于 其 前 后 紧邻 记录 价格 的 记录 。 而 低谷 则 与 之 相反 ， 指 
的 是 两 侧 紧 邻 记 录 价 格 较 高 的 记录 ， 如 图 4-2 所 示 。 
































90 价格 随时 间 的 变化 














二 2 3 4 5 6 a 8 9 10 














图 4-2 : 一 段 时 间 内 股票 价格 的 高 峰 与 低谷 


为 了 找 出 这 个 例子 中 的 高 峰 和 低谷 ， 这 里 需要 维护 股票 价格 的 一 个 窗口 。 


注意 ， 这 是 一 个 简单 的 例子 ，SQL 和 Spark 都 可 以 实现 。 随 着 开 窗 分 析 日 渐 复杂 ，SQL 会 
渐渐 变 得 不 太 适 用 。 


4.2.1 生成 开 窗 分 析 的 示例 数据 
接 下 来 我 们 创建 一 个 测试 数据 集 ， 其 包含 值 不 断 上 升 、 下 降 ， 类 似 于 股票 价格 。 以 下 代码 
示例 的 输入 参数 与 上 一 代数 据 生 成 工具 (numberofRecords 和 numberofUniqueIds) 相同 。 
不 过 ， 这 里 产生 的 记录 会 有 所 不 同 。 
。 主键 
主键 是 竺 分析 事件 序列 的 标识 符 。 例 如 : 股票 代号 (stock ticker symbol) 就 可 以 是 一 个 
主键 。 主 键 会 基于 numberofUniquelIds 输入 参数 。 
。 增 量 计数 器 
在 生成 的 数据 中 ， 每 一 条 记录 这 一 字段 的 取 值 均 是 唯一 的 。 
。 事件 取 值 
给 定 的 主键 会 有 一 个 随机 记录 集合， 包含 上 升 和 下 降 的 取 值 。 
让 我 们 看 一 下 产生 该 测试 数据 的 代码 : 
def main(args: Array[String]): Unit = { 
if (args.length == 0) { 
printLn("{outputPath} {numberOfRecords} {numberOfUniqueIds}") 


return 


} 
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val outputpPath = new Path(args(0)) 
val numberOfRecords = args(1).toInt 
val numberOfUniqueIds = args(2).toInt 


val fileSystem = FileSystem.get(new Configuration()) 


val writer = 
new BufferedWriter( new OutputStreamWriter(fileSystem.create(outputPath))) 


val r = new Random() 


var direction = 1 
var directionCounter = r.nextInt(numberOfUniqueIds * 10) 
var currentPointer = 0 


for (i <- 0 until numberOfRecords) { 
val uniqueId = r.nextInt(numberOfUniqueIds) 


currentPointer = currentPointer + direction 
directionCounter = directionCounter - 1 
if (directionCounter == 0) { 
var directionCounter = r.nextInt(numberOfUniqueIds * 10) 
direction = direction * -1 


} 


writer.write(uniqueId + + 放 + + CurrentPointer) 


writer.newLine() 


} 


nn 


writer.close() 


} 


4.2.2 ”代码 示例 : 使 用 Spark 分 析 数 据 的 高 峰 和 低谷 


现在 ， 让 我 们 来 关注 使 用 Spark 实现 这 一 范式 的 代码 。 下 面 的 代码 的 确 有 点 长 。 我 们 会 在 
后 面 进行 深入 的 探讨 ， 帮 助 你 理解 它 。 


以 下 代码 可 以 在 SparkPeaksAndValleysExecution.scala 文件 中 找到 ; 



































object SparkPeaksAndValleysExecution { 
def main(args: Array[String]): Unit = { 
if (args.length == 0) { 
println("{inputPath} {outputPath} {numberOfPartitions}") 
return 


} 
val inputPath = args(0) 
val outputpPath = args(1) 


val numberOfPartitions = args(2).toInt 


val sparkConf = new SparkConf().setAppName("SparkTimeSeriesExecution") 
sparkConf.set("spark.cleaner .ttl", "120000"); 


val sc = new SparkContext(sparkConf) 
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// 数 据 读 取 @ 

var originalDataRDD = sc.hadoopFile(inputPath, 
CLassof[TextInputFormat] ， 
cCLassof[LongWritabtLe]， 
CLassOf[Text] ， 
1).map(r => { 
val splits = r. 2.toString.split(",") 


(new DataKey(splits(0), splits(1).toLong), splits(2).toInt) 


车 
// 按 照 主键 分 区 ,产生 Partitioner 对 象 @ 
val partitioner = new Partitioner { 


override def numpartitions: Int = numberOfPartitions 


override def getPartition(key: Any): Int = { 


Math.abs(key.asInstanceOf[DataKey] .uniquelId.hashCode() % numpartitions) 


} 
} 


// 分 区 和 排序 合 
val partedSortedRDD = 
new ShuffledRDD[DataKey, Int, Int]( 
originalDataRDD,， 





partitioner).setKeyOrdering(implicitly[Ordering[DataKey]]) 


// 使 用 MapPartition 执 行 开 窗 操 作 、@ 
val pivotPointRDD = partedSortedRDD.mapPartitions(it => 








val results = new mutable.MutableList[PivotPoint] 


// 保 在 上 下 文 日 

var LastUniqueId = "foobar" 

var LastRecord: (DataKey, Int) = null 

var lastLastRecord: (DataKey, InNnt) = null 


var position = 0 


it.foreach( r => { 
position = position + 1 


if (!lastUniqueId.equals(r._1.uniqueId)) { 


lastRecord = null 
lastLastRecord = null 


} 


// 查 找 定位 数据 高 峰 与 谷底 
if (LastRecord != null && LastLastRecord != null) { 





if (lastRecord. 2 < r. 2 && lastRecord. 2 < lastLastRecord. 2) { 


results.+=(new PivotPoint(r._1.uniqueld, 
position, 
lastRecord._1.eventTime, 
LastRecord. 2， 


{ 


O 





false)) 
} else if (lastRecord. 2 > r. 2 && lastRecord. 2 > LastLastRecord. 2) { 
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resuLts.+=(new PivotPoint(r._1.uniqueld, 
position, 
lastRecord._1.eventTime, 
lastRecord._2, 
true)) 
} 
} 
lastUniqueld = 
LastLastRecord 
LastRecord = 上 『 


r. 1.uUntqueId 
= LastRecord 


]) 


results.iterator 


}) 


// 格 式 化 输 则 
pivotpPointRDD.map(r => { @ 
val pivotType = if (r.ispeak) "peak" else "vaLLey" 
r.uniqueld + "," + 
r.position + "," 
r.eventTime + 
r.eventValuye + 
pivotType 
} ).saveAsTextFile(outputPath) 





上 上 


平 
十 
十 


nm nm 
3? 


class DataKey(val uniqueId:String，VvaL eventTime:Long) 
extends Serializable with Comparable[DataKey] { 
override def compareTo(other:DataKey): Int = { 
val comparel1 = uniqueId.compareTo(other .uniqueId) 
if (Comparel == 0) { 
eventTime.compareTo(other .eventTime) 
} else { 
comparel 
} 
} 
} 


class Pivotpoint(val uniqueId: String, 
val position:Int, 
val eventTime:Long, 
val eventValue:Int, 
val isPeak:BooLean) extends Serializable {} 


} 
@ 这 一 段 代码 没什么 太 多 要 说 的 ， 就 是 读 取 输 入 数据 ， 将 其 解析 成 容易 处 理 的 对 象 。 


名 代码 从 这 里 真正 开始 变 得 有 趣 。 我 们 定义 了 一 个 Partition， 这 与 在 MapReduce 编程 中 
创建 一 个 自 定义 Partitioner 类 似 。Partition 的 作用 是 在 Shuffle 处 理 后 确定 哪 一 条 记 
录 分 配 到 哪 一 个 Worker。 在 这 里 ， 我 们 需要 自 定 义 Partitioner， 因 为 key 是 由 primary_ 
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key 和 position 两 部 分 组 成 的 。 我 们 希望 排序 能 够 同时 考虑 两 者 ， 但 只 按照 primary_ 
key 分 区 。 因 此 ， 输 出 如 图 4-3 所 示 。 

全 这 部 分 执行 Shuffle 操作 ， 分 区 并 对 数据 排序 。 注 意 ，Spark 1.3 提供 了 一 个 名 为 reparti 
tionAndSortWithinPartitions() 的 变换 方法 ， 能 够 完成 我 们 所 需 的 功能 。 但 是 我 们 使 用 
的 是 Spark 1.2 的 版 本 ， 需 要 手动 实现 这 一 Shuffle 过 程 。 

@ 在 mapPartition() 方法 中 ，primary_key 会 根据 位 置 的 先后 顺序 进行 遍历 。 这 里 也 是 发 
生 数 据 开 窗 的 地 方 。 

四 为 了 找到 数据 的 高 峰 和 低谷 ， 并 确定 是 否 需 要 更 换 primary_key， 我 们 将 上 下 文 信息 保 
存 于 此 。 注 意 ， 为 了 查找 数据 的 高 峰 和 低谷 ， 我 们 需要 知道 当前 记录 前 面 与 后 面 的 记 
录 。 因 此 ， 这 里 有 如 下 变量 : currentRow、LastRow、LastLastRow， 我 们 可 以 通过 比较 
LastRow 与 其 他 两 个 变量 的 值 ， 确 定 lastRow 是 高 峰 还 是 低谷 。 

@ 进行 比较 ， 确 定 是 否 发 现 了 数据 的 高 峰 或 低谷 。 

@ 这 是 最 后 一 部 分 代码 ， 将 记录 格式 化 并 写 入 HDFS 中 。 










































































分 区 1 
A C4 
分 区 2 











图 4-3: 数据 高 峰 及 低谷 中 的 分 区 示例 。 在 这 里 ， 我 们 将 多 个 数据 序列 分 成 了 两 个 组 ， 这 样 就 可 以 将 
分 析 的 工作 分 布 到 两 个 Worker 上 处 理 ， 每 个 序列 对 应 的 事件 分 布 在 一 个 组 之 内 


4.2.3 ”代码 示例 : 使 用 SQL 分 析 数 据 的 高 峰 和 低谷 
类 似 于 前 面 的 例子 ， 我 们 首先 基于 测试 数据 创建 如 下 一 张 数据 表 。 


CREATE EXTERNAL TABLE PEAK_AND_VALLEY_TABLE ( 
PRIMARY_KEY STRING, 
POSITION BIGINT, 
EVENT_VALUE BIGINT 
) 
ROW FROMAT DELIMITED FIELDS TERMINATED BY '," 
STORED AS TEXTFILE 
LOCATION 'PeakAndValleyData'; 


拥有 了 所 需 的 数据 表 之 后 ， 接 下 来 要 对 记录 排序 ， 并 使 用 Lead() 和 1Lag() 函数 获取 当前 记 
录 的 上 下 文 记 录 。 
SELECT 0 
PRIMARY_KEY, 


POSITION, 
EVENT_VALUE, 
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CASE 
WHEN LEAD_EVENT_VALUE is nuLL or LAG_EVENT_VALUE is nuLL THEN 'EDGE' 
WHEN 
EVENT_VALUE < LEAD_EVENT_VALUE AND EVENT_VALUE < LAG_EVENT_VALUE 
THEN 
'VALLEY' 
WHEN 
EVENT_VALUE > LEAD_EVENT_VALUE AND EVENT_VALUE > LAG_EVENT_VALUE 
THEN 
'PEAK' 
ELSE'SLOPE' 
END AS POINT_TYPE 
FROM 
( 
SELECT ©@ 
PRIMARY_KEY ， 
POSITION, 
EVENT_VALUE, 
LEAD(EVENT_VALUE, 1, null) 
OVER(PARTITION BY PRIMARY_KEY ORDER BY POSITION) AS LEAD_EVENT_VALUE, 
LAG(EVENT_VALUE, 1, null) 
OVER(PARTITION BY PRIMARY_KEY ORDER BY POSITION) AS LAG_EVENT_VALUE 
FROM PEAK_AND_VALLEY_TABLE 
) A 


虽然 这 句 SQL 并 非 过 度 复杂 ， 但 仍然 需要 拆 成 两 部 对 其 解释 。 

@ 在 执行 了 第 二 步 的 子 查 询 之 后 ， 我 们 得 到 了 组 织 好 的 数据 。 一 条 记录 中 包含 了 需要 的 全 

部 信息 。 我 们 可 以 赁 这 条 记录 确认 以 下 几 种 类 型 : 边缘 〈 时 间 窗 口 的 最 左 或 最 右 一 个 

点 )、 高 峰 〈 前 后 的 值 均 比 当前 值 要 小 )、 低 谷 〈 前 后 的 值 均 比 当前 值 要 大 )、 和 斜坡 (前 

后 的 值 要 么 都 比 当前 值 大 ， 要 么 都 比 当前 值 要 小 )。 

@ 在 这 条 子 查询 中 ， 我 们 执行 数据 开 窗 的 逻辑 。 该 查询 会 将 当前 值 之 前 和 之 后 的 值 放 入 同 
一 行 。 图 4-4 所 示 就 是 这 条 子 查 询 的 输入 和 输出 。 
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图 4-4: 前 述 子 查询 的 输入 及 输出 : 第 一 步 将 事件 分 成 多 个 组 ， 每 个 子 序列 一 个 组 ， 并 按照 事件 发 生 
的 顺序 进行 组 内 排序 ， 第 二 步 对 每 一 个 事件 进行 扩容 ， 加 上 之 前 和 之 后 发 生 的 事件 的 值 ， 以 
便 后 续 检 测 高 峰 和 低谷 
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窗口 函数 与 SQL 

本 例 中 的 SQL 代码 比 Spark 的 实现 更 为 简洁 ， 大 家 可 能 会 觉得 使 用 SQL 比 
较 简 单 。 但 我 们 仍然 需要 考虑 到 SQL 的 局 限 性 。 使 用 SQL 执行 多 次 复杂 的 
窗口 操作 ， 意 味 着 提升 读 写 磁 盘 的 复杂 度 ， 即 增加 了 磁盘 IJO， 同 时 也 降低 
了 性 能 。 使 用 Spark 则 只 需 对 数据 进行 一 次 排序 ， 可 以 借助 Java 或 Scala 提 
供 的 功能 执行 W 次 窗口 操作 ， 将 信息 保存 在 内 存 中 并 执行 操作 。 


4.3 人 基于 时 间 序 列 的 更 新 


本 章 最 后 一 个 例子 会 把 前 面 两 个 示例 结合 起 来 。 在 这 一 个 例子 中 ， 我 们 基于 主键 更 新 记 
录 ， ds 

这 人 允许 一 条 记录 了 解 自己 的 生效 时 间 及 失效 时 间 ， 提 供 一 个 实体 的 信息 以 及 开始 和 结束 的 
时 间 ， 如 图 4-5 所 示 。 















































价格 表 
开始 时 间 ”结束 时 间 


12/01/2014 null 
11/25/2014 12/01/2014 
11/20/2014 11/25/2014 














图 4-5 : 一 段 时 间 内 Apple 公司 股票 的 价格 


开始 和 结束 时 间 能 够 标识 一 条 记录 生效 的 时 间 区 间 。 如 果 结 束 时 间 为 nutL， 这 就 意味 着 该 
记录 的 值 就 是 实体 的 当前 值 。 在 上 面 的 例子 中 ， 我 们 可 以 看 到 Apple 公司 股票 的 当前 价格 
为 42 美元 。 

随 之 而 来 的 问题 是 何 时 更 新 表 。 如 图 4-6 所 示 ， 需 要 添加 一 条 价格 为 43 美元 的 新 记录 时 ， 
我 们 需要 更 新 前 一 条 记录 的 结束 时 间 ， 并 将 其 改 为 新 记录 的 开始 时 间 。 图 中 颜色 较 识 的 一 
个 单元 代表 的 是 需要 更 新 的 记录 。 




















价格 表 
PKey ”开始 时 间 ”结束 时 间 值 


Apple ~ 12/0112014 Wans7oa 


Apple 11/25/2014 12/01/2014 41 
Apple 11/20/2014 11/25/12014 40 














4-6 : 向 Apple 公司 股票 价格 表 中 添加 一 条 新 记录 
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表面 上 看 ， 这 似乎 是 一 个 很 简单 的 问题 。 实 际 上 海量 数据 集 的 更 新 在 实现 上 可 能 会 非常 复 
杂 。 接 下 来 的 讨论 会 涉及 一 些 挑战 和 解决 方案 。 


4.3.1 利用 HBase 的 版 本 特性 

存储 此 类 信息 的 一 种 常见 方式 就 是 将 记录 存 成 HBase 的 多 个 版 本 。HBase 支持 对 记录 的 更 
改 以 多 个 版 本 的 形式 存储 。 版 本 在 列 这 一 层 定义 ， 并 按照 更 新 的 时 间 惟 有 序 排列 。 因 此 ， 
你 可 以 查看 任意 时 间 点 的 记录 值 。 
这 样 做 的 优点 是 更 新 速度 快 ， 能 够 快速 获取 最 新 的 值 。 然 而 ， 获 取 历 史 版 本 的 性 能 会 有 一 
些 损失 ， 在 执行 大 型 扫描 操作 或 读数 据 块 缓存 时 ， 性 能 缺陷 较为 明显 。 

大 型 的 扫描 操作 较 慢 ， 这 是 因为 在 到 达 下 一 个 记录 前 ， 每 条 记录 的 所 有 版 本 都 要 读 取 。 如 
果 版 本 数 很 多 ， 那 么 扫描 操作 会 非常 慢 。 

读 取 数据 块 缓存 时 ， 命 中 率 不 高 ， 因 为 在 读 取 一 条 记录 时 ，HBase 会 将 整个 64 KB 的 
HFile 数据 块 缓存 于 内 存 中 。 如 果 历 史 信息 很 多 ， 那 么 缓存 中 的 数据 很 有 可 能 是 记录 的 寺 
他 版 本 ， 而 不 是 你 实际 想 要 的 记录 。 


最 后 ， 这 个 数据 模型 并 没有 将 开始 和 结束 时 间 保 存在 同一 条 记录 中 。 想 要 了 解 一 个 版 本 的 
开始 和 结束 时 间 ， 你 需要 参照 多 个 版 本 记录 。 


4.3.2 ”以 记录 主键 与 开始 时 间作 HBase 的 行 键 

为 了 在 HBase 的 同一 条 记录 中 保存 开始 和 结束 时 间 ， 我 们 将 创建 一 个 由 RecordKey 和 
StartTime 构成 的 组 合 键 。 与 之 前 提 到 的 多 版 本 解决 方案 不 同 ， 这 个 新 方案 的 记录 会 有 一 
个 列 用 来 存储 结束 时 间 。 

注意 ，RowKkey 中 的 开始 时 间 需 要 将 时 间 惟 反 转 ， 以 保证 按照 从 新 到 旧 的 顺序 排列 。 

因此 ， 增 加 一 条 新 版 本 的 记录 时 ， 这 里 需要 进行 如 下 修改 。 首 先 ， 以 Recordkey 作为 起 始 
RowKey 进行 单行 扫描 ， 得 到 指定 RecordKey 对 应 的 当前 版 本 的 数据 。 拥 有 这 一 信息 之 后 ， 接 
下 来 要 执行 两 次 put 操作 : 先 更 新 当前 记录 的 结束 时 间 ， 然 后 再 添加 一 个 新 的 当前 记录 。 
获得 指定 时 间 版 本 的 记录 时 ， 你 只 需要 以 RecordKey 和 指定 时 间 的 反 转 值 为 行 键 进行 单行 
扫描 即 可 。 

这 一 方案 在 大 型 数据 扫描 和 数据 块 缓 存 方面 存在 一 定 的 问题 ， 但 是 可 以 快速 地 获取 某 一 
版 本 ， 并 在 同一 行 中 保存 结束 时 间 。 值 得 注意 的 是 ， 这 需要 在 插入 一 条 记录 时 外 加 get 和 
put 操作 。 


4.3.3 重 写 HDFS 数 据 更 新 整个 表 

如 果 放 弃 使 用 HBase， 只 使 用 HDFS 作为 实现 方案 ， 那 么 我 们 需要 将 所 有 的 数据 存储 到 
HDFS 上 。 按 照 某 个 特定 的 周期 (如 一 天 执行 一 次 ) 获取 新 数据 时 ， 刷 新 数据 表 即 可 。 

这 一 方案 看 起 来 代价 很 大 。 不 过 ， 借 助 Hadoop 我 们 可 以 在 较 短 的 时 间 内 重 写 TB 级 的 数 
据 。 随 着 数据 集 的 增 大 ， 你 还 可 以 借助 一 些 技术 ， 优 化 这 一 执行 过 程 。 举 例 来 说 ， 你 可 以 
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为 大 多 数 的 当前 记录 建立 单独 的 分 区 。 后 面 我 们 会 继续 讨论 这 一 方案 。 


4.3.4 利用 HDFS 上 的 分 区 存储 当前 记录 和 历史 记录 


在 HDFS 上 ， 这 是 一 个 较为 明智 的 做 法 : 将 大 多 数 存储 当前 值 的 记录 放 到 一 个 分 区 里 ， 将 
其 他 历史 记录 放置 于 另外 一 个 分 区 中 。 这 样 可 以 只 重 写 最 新 的 版 本 ， 而 不 涉及 历史 版 本 。 
接 下 来 将 新 记录 追加 到 旧 记 录 所 在 的 分 区 即 可 。 


这 样 做 的 最 大 好 处 在 于 执行 时 间 基 本 固定 ， 不 会 随 历 史 版 本 数据 的 增加 而 拉 长 。 


接 下 来 ， 我 们 就 这 种 方式 讲解 一 个 例子 ， 同 样 是 分 别 使 用 Spark 和 SQL 两 种 工具 来 实现 。 
出 于 演示 的 目的 ， 我 们 使 用 一 个 简单 的 、 模 拟 的 数据 集 ， 每 条 记录 由 唯一 的 ID 、 事 件 发 生 
时 间 和 随机 整数 组 成 。 不 过 ， 这 个 例子 中 使 用 的 方法 很 容易 扩展 到 真实 场景 中 基于 事件 的 
数据 (如 之 前 描述 的 股票 报价 )。 


4.3.5 生成 时 间 序 列 的 示例 数据 


我 们 在 这 里 根据 示例 的 需要 ， 创 建 基于 时 间 序 列 的 数据 集 ， 同 样 使 用 Scala 和 HDFS 文件 
系统 的 API。 
def main(args: Array[String]): Unit = { 
if (args.length == 0) { 
printLn("{outputPath} {numberOfRecords} {numberOfUniqueRecords} {startTime}") 
return 













































































val outputpPath = new Path(args(0)) 

val numberOfRecords = args(1).toInt 

val numberOfUniqueRecords = args(2).toInt 
val startTime = args(3).toInt 


val fileSystem = FileSystem.get(new Configuration()) 
val writer = 
new BufferedWriter(new OutputStreamWriter(fileSystem.create(outputPath))) 


val r = new Random 


for (i <- 0 until numberOfRecords) { 
val uniqueId = r.nextInt(numberOfUniqueRecords) 
val madeUpValue = r.nextInt(1000) 
val eventTime = i + startTime 


writer.write(uniqueId + "," + eventTime + "," + madeUpValue) 
writer.newLine() 


writer.close() 


} 
通读 本 市 的 数据 生成 代码 ， 你 会 发 现 它 的 设计 思路 与 之 前 例子 中 的 数据 生成 代码 极为 类 似 。 
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4.3.6 ”代码 示例 : 使 用 Spark 更 新 时 间 序 列 数据 


现在 ， 让 我 们 关注 Spark 代码 的 具体 实现 ， 了 解 如 何 按照 时 间 序 列 数据 的 起 止 时 间 进 行 站 
分 区 的 更 新 。 你 可 以 在 SparkTimeSeriesExecution 这 一 Scala 对 象 的 GitHub 中 找到 代码 片 
段 。 这 是 本 章 最 长 的 示例 代码 ， 我 们 稍 后 会 进行 分 析 。 


object SparkTimeSeriesExecution { 
def main(args: Array[String]): Unit = { 
if (args.length == 0) { 

printLn("{newDataInputPath} ”+ 
"{outputPath} " + 
"{numberOofPartitions}") 

println("or" 

printLn("{newDataInputPath} ”+ 
"{existingTimeSeriesDataInputPath} " + 
"{outputPath} " + 
"{numberOofPartitions}") 

return 


} 





val newDataInputPath = args(0) 

val existingTimeSeriesDataInputPath = if (args.length == 4) args(1) else null 
val outputpPath = args(args.Length - 2) 

val numberOfPartitions = args(args.Length - 1).toInt 


val sparkConf = new SparkConf().setAppName("SparkTimeSeriesExecution") 
sparkConf.set("spark.cleaner .ttL" ，"120000" ); 


val sc = new SparkContext(sparkConf) 


// 从 HDFS 中 加 载 数 据 
var unendedRecordsRDD = sc.hadoopFiLe(newDataInputPath， © 
CLassof[TextInputFormat] ， 
classof[LongWritable], 
CLassof[Text] ， 
1).map(r => { 
val splits = r._ 2.toString.split(",") 


(new TimeDataKey(splits(0), splits(1).toLong), 
new TimeDataValue(-1, splits(2))) 
}) 


var endedRecordsRDD:RDD[ (TimeDataKey, TimeDataValue)] = null 


// 若 存在 , 则 读 取 已 有 的 记录 
if (existingTimeSeriesDataInputPath != null) { © 
val existingDataRDD = sc.hadoopFile(existingTimeSeriesDataInputPath, 

CLassof[TextInputFormat] ， 
cCLassof[LongWritabtLe]， 
classof[Text], 
1).map(r => { 
val splits = r. 2.toString.split(",") 
(new TimeDataKey(splits(0), splits(1).toLong), 
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new TimeDataValue(splits(2).toLong, splits(3))) 
}) 


unendedRecordsRDD = unendedRecordsRDD 
.uNnion(existingDataRDD.filter(r => r. 2.endTime == - 


endedRecordsRDD = existingDataRDD.filter(r => r._2.endTime > -1) 


} 
// 定 义 本 例 中 所 需 的 Partitioner 


val partitioner = new Partitioner { © 
override def numpartitions: Int = numberOfPartitions 





override def getPartition(key: Any): Int = { 
Math.abs( 


key.asInstanceOf[TimeDataKey] .uniquelId.hashCode() % numpartitions) 


} 
J 


val partedSortedRDD = 


new ShuffledRDD[TimeDataKey, TimeDataValue, TimeDataValuel]( 


UnendedRecordsRDD ， 


partitioner).setKeyOrdering(implicitly[Ordering[TimeDataKey]]) 


// 遍 历 每 一 个 主键 ,确保 停止 时 间 的 值 已 更 新 





var updatedEndedRecords = partedSortedRDD.mapPartitions(it => { 
val results = new mutable.MutableList[(TimeDataKey, TimeDataValue)] 


var lastUniqueId = "foobar" 
var LastRecord: (TimeDataKey, TimeDataValue) = null 


it.foreach(r => { 
if (!r. 1.uniqueId.equals(lastUniqueId)) { 
if (lastRecord != nuLL) { 
resuLts.+=(LastRecord) 
} 
LastUniqueId = r._1.uniqueld 
lastRecord = null 
} elsef 
if (lastRecord != null) { 
lastRecord. 2.endTime = r._1.startTime 
resuLts.+=(LastRecord) 
} 
} 
LastRecord = r 
}) 
if (lastRecord != nuLL) { 
resuLts.+=(LastRecord) 


3 


results.iterator 


}) 


// 并 入 已 存在 的 记录 
if (endedRecordsRDD != nuLLU) { 日 





updatedEndedRecords = updatedEndedRecords.union(endedRecordsRDD) 


1)) 


© 
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} 


// 格 式 化 结果 ,并 保存 至 HDFS 
updatedEndedRecords @ 
.map(r => rr. 1.UniqueId + "," + 
r. 1.startTime + "," + 
r. 2.endTime + "," + 
r. 2.data) 
.SaveAsTextFile(outputPath) 


} 


class TimeDataKey(val uniquelId:String, val startTime:Long) 
extends Serializable with Comparable[TimeDataKey] { 
override def compareTo(other:TimeDataKey): Int = { 

val comparel1 = uniqueId.compareTo(other .uniqueId) 

if (compare1 == 0) { 
startTime.compareTo(other.startTime) 

} else { 
Comparel 


} 
} 
} 


class TimeDataValue(var endTime:Long, val data:String) extends Serializable {} 


} 

@ 与 之 前 的 示例 一 样 ， 这 一 部 分 从 HDFS 读 取 新 的 数据 集 。 

四 这 一 部 分 与 本 章 之 前 的 示例 不 同 。 在 本 例 中 ， 输 入 可 能 是 新 的 数据 ， 也 可 能 是 HDFS 中 
已 有 表 中 的 数据 。 在 这 里 ， 我 们 认为 HDFS 表 中 的 数据 集 未 必 存 在 ， 因 为 显然 在 第 一 
次 添加 记录 时 ，HDFS 表 中 的 数据 集 是 空 的 。 注 意 ， 我 们 会 过 滤 掉 拥有 endTime 值 的 记 
录 ， 这 是 因为 我 们 不 希望 这 类 数据 经 过 后 续 的 Shuffle 过 程 ， 并 通过 网 络 传输 以 及 执行 
排序 等 操作 。 后 面 我 们 会 合并 这 些 值 。 

全 与 数据 高 峰 及 低谷 的 示例 一 样 ， 我 们 需要 一 个 自 定 义 的 Partition 和 Shuffle。 只 要 数据 
集 需 要 按照 指定 key 排序 ， 类 似 的 处 理 方 式 就 会 用 到 。 这 里 的 分 区 策略 与 先前 一 致 : 按 
照 primaryKkey 分 区 ， 按 照 primaryKey 和 startTime 的 组 合 排序 。 

@ 在 这 里 遍历 每 一 个 primaryKey， 更 新 记录 对 应 的 停止 时 间 。 

@ 这 一 步 我 们 使 用 union() 方法 ， 将 拥有 endTime 的 已 有 记录 合并 到 最 终结 果 中 。 

@ 最 后 ， 我 们 将 格式 化 的 结果 输出 到 HDFS 上 。 


4.3.7 ”代码 示例 : 使 用 SQL 更 新 时 间 序 列 数据 


与 之 前 类 似 ， 我 们 要 先 建设 数据 集 的 源 表 ， 供 Hive 或 Impala 使 用 。 这 个 例子 会 有 两 张 表 ， 
一 个 是 已 存在 的 时 间 序 列表 ， 另 一 个 是 新 增 表 。 


CREATE EXTERNAL TABLE EXISTING_TIME_ SERIES_TABLE ( 
PRIMARY_KEY STRING, 
EFFECTIVE_DT BIGINT, 
EXPIRED_DT BIGINT, 
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EVENT_VALUE STRING 

) 
ROWN FORMAT DELIMITED FIELDS TERMINATED BY ',' 
STORMED AS TEXTFILE 

LOCATION 'ExistingTimeSeriesData'; 


CREATE EXTERNAL TABLE NEW_TIME_SERIES_TABLE ( 
PRIMARY_KEY STRING, 
EFFECTIVE_DT BIGINT, 
EVENT_VALUE STRING 


) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY '," 


STORMED AS TEXTFILE 
LOCATION 'NewTimeSeriesData'; 


这 两 张 表 非 常 类 似 ， 只 是 后 者 没有 失效 日 期 这 一 字段 。 

注意 ， 在 实际 应 用 场景 中 ， 我 们 会 对 数据 集 进行 分 区 ， 比 如 为 当前 记录 和 万 
史记 录 分 区 。 这 是 因为 我 们 不 必 读 取 那 些 已 经 拥有 失效 日 期 的 记录 ， 要 执 
行 的 操作 不 需要 这 些 数据 。 我 们 只 需 读 取 那 些 已 有 的 活跃 记录 ， 根 据 NEW_ 
TIME_SERIES_TABLE 表 中 的 新 增 记录 来 判断 它们 是 否 失 效 。 

另外 ， 当 前 的 记录 会 被 重 写 ， 而 针对 历史 记录 则 只 会 进行 追加 操作 。 
































| 





现在 ， 让 我 们 根据 这 两 张 表 生 成 一 个 包含 更 新 后 记录 的 结果 表 。 


SELECT 
PRIMARY_KEY ， 
EFFECTIVE_DT， 
CASE 
WHEN LEAD(EFFECTIVE_DT, 1, null) 
OVER 
(PARTITION BY PRIMARY_KEY ORDER BY EFFECTIVE_DT) 
IS NULL THEN NULL 
ELSE LEAD(EFFECTIVE_DT, 1, null) 
OVER 
(PARTITION BY PRIMARY_KEY ORDER BY EFFECTIVE_DT) 
END AS EXPIRED_DT, 
EVENT_VALUE 
FROM ( 
SELECT 
PRIMARY_KEY, 
EFFECTIVE_DT， 
EVENT_VALUE 
FROM 
EXISTING_TIME_SERIES_TABLE 
WHERE 
EXPIRED_DT IS NULL 
UNION ALL 
SELECT 
PRIMARY_KEY, 
EFFECTIVE_DT， 
EVENT_VALUE 
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FROM NEW_TIME_SERIES_TABLE 
) sub_1 
UNION ALL 
SELECT 
PRIMARY_KEY ， 
EFFECTIVE_DT ， 
EXPIRED_DT ， 
EVENT_VALUE 
FROM 
EXISTING_TIME_SERIES_TABLE 
WHERE 
EXPIRED_DT IS NOT NULL 


这 是 一 个 相当 长 的 查询 语句 ， 我 们 分 解 开 来 看 。 最 外 层 是 两 个 SELECT 语句 联合 在 一 起 。 前 
看 一 个 SELECT 语句 处 理 已 存在 的 当前 记录 和 新 增 的 记录 ， 判 断 哪些 是 失效 的 记录 。 后 面 一 
个 SELECT 语句 则 挑选 出 已 经 失效 的 记录 。 如 果 使 用 了 前 面 提 到 的 分 区 策略 ， 那 么 外 层 的 第 
二 个 SELECT 语句 就 不 需要 了 。 


这 里 重点 讲解 第 一 个 SELECT 语句 。 如 下 面 的 代码 片段 所 示 ， 子 查询 中 有 两 个 表 的 联合 。 我 
们 过 滤 了 EXISTING_TIME_SERIES_TABLE 表 中 的 失效 日 期 的 记录 ， 因 为 我 们 不 需要 对 这 些 数 
据 进 行 排序 和 窗口 函数 操作 。 


SELECT 
PRIMARY_KEY, 
EFFECTIVE_DT， 
EVENT_VALUE 
FROM 
EXISTING_TIME_SERIES_TABLE 
WHERE 
EXPIRED_DT IS NULL 
UNION ALL 
SELECT 
PRIMARY_KEY, 
EFFECTIVE_DT， 
EVENT_VALUE 
FROM NEW_TIME_SERIES_TABLE 


内 部 SELECT 生成 的 结果 会 按照 主键 分 区 ， 并 按照 生效 日 期 和 时 间 排 序 。 在 这 里 ， 我 们 会 
考虑 这 样 一 个 问题 :“ 确 定 一 个 主键 后 ， 这 条 记录 是 否 存在 更 大 的 时 间 戳 ， 并 包含 生效 日 
期 ?” 如 果 答 案 是 肯定 的 ， 那 么 这 条 记录 就 是 失效 记录 。 以 下 是 查询 的 代码 片段 。 


PRIMARY_KEY ， 
EFFECTIVE_DT， 
CASE 
WHEN LEAD(EFFECTIVE_DT, 1, null) 
OVER 
(PARTITION BY PRIMARY_KEY ORDER BY EFFECTIVE_DT) 
IS NULL THEN NULL 
ELSE LEAD(EFFECTIVE_DT, 1, null) 
OVER 
(PARTITION BY PRIMARY_KEY ORDER BY EFFECTIVE_DT) 
END AS EXPIRED_DT， 
EVENT_VALUE 
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如 你 所 见 ， 这 的 确 是 一 个 较为 复杂 的 查询 语句 ， 但 是 与 Spark 的 代码 比 起 来 ， 还 是 更 为 简 
洁 。 在 这 种 情况 下 ，Spark 或 者 SQL 都 是 不 错 的 选择 ， 选 择 哪 一 个 取决 于 你 对 工具 的 喜好 


4.4 小 结 

总 结 一 下 ， 本 章 得 出 了 以 下 几 条 结论 。 

。 在 Hadoop 上 使 用 Spark 和 SQL 可 以 进行 一 些 比 较 复 杂 的 处 理 。 

。 迁移 到 Hadoop 上 时 ， 你 不 必 弃 用 SQL。 实 际 上 ，SQL 在 Hadoop 平台 上 仍然 是 强大 的 
数据 处 理 和 数据 分 析 抽 象 。 这 一 点 与 传统 数据 管理 系统 的 情况 一 致 。 

。 我 们 可 以 采用 不 同 的 工具 解决 问题 ， 不 同 的 工具 也 会 给 我 们 不 同 的 解决 方案 。 

随 着 新 型 工具 (如 Inpala 和 Hive on Spark) 的 引入 ，SQL-on-Hadoop 工具 会 越 来 越 强 大 。 

不 过 在 解决 各 类 问题 的 时 候 ，SQL 并 不 会 取代 Spark 及 其 他 处 理 框架 。 全 面 发 展 的 Hadoop 

开发 者 需要 了 解 已 有 工具 ， 并 针对 特定 问题 评估 和 确定 最 合适 的 工具 。 
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第 5 章 


Hadoop 图 处 理 





在 第 3 章 中 ， 我 们 讨论 了 用 于 Hadoop 数据 处 理 的 工具 ， 但 是 没有 讨论 另 一 种 类 型 的 
Hadoop 数据 处 理 : 图 数据 处 理 。 现 在 ， 图 数据 处 理 成 为 了 很 多 应 用 的 核心 ， 而 且 为 特定 
类 型 的 应 用 实现 提供 了 重要 的 机 会 ， 所 以 我 们 将 在 本 章 单独 讨论 Hadoop 图 数据 处 理 。 一 
些 常用 的 图 数据 处 理 案 例 为 搜索 引擎 中 的 网 页 排名 、 在 社交 网 络 上 查找 新 朋友 、 在 投资 基 
金 中 查找 确定 具有 潜力 的 股票 ， 以 及 路 径 规 划 ， 等 等 。 


5.1 什么 是 图 


说 不 定 你 是 第 一 次 接触 图 数据 ， 所 以 在 讨论 用 于 图 数据 处 理 的 工具 之 前 ， 我 们 先 来 看 一 
下 图 数据 的 定义 。 接 下 来 我 们 会 了 解 什么 是 图 数据 处 理 ， 以 及 图 数据 处 理 与 图 数据 查询 的 
区 别 。 

无 需 歼 言 ,“ 图 ”可 以 表示 很 多 含义 。 它 可 以 指 Excel 工具 中 的 折线 图 、 饼 图 或 者 柱状 
图 。 本 章 要 讨论 的 图 并 不 是 花花 绿绿 的 图 画 。 我 们 要 讨论 的 图 只 包含 两 种 要 素 ， 即 顶点 
(vertex) 和 边 (edge)。 


你 可 能 在 上 学 的 时 候 就 已 经 学 过 ， 三 角形 的 尖 被 称 作 顶 点 ， 而 连接 两 个 点 之 间 的 线 被 称 作 
边 ， 如 图 5-1 所 示 。 对 图 有 了 些许 认识 之 后 ， 让 我 们 开始 进一步 学 习 。 
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5-1: 边 与 顶点 




















现在 我 们 稍微 改变 一 下 上 图 的 内 容 ， 给 每 个 点 都 添加 一 些 信息 。 假 设 每 个 点 代表 一 个 人 ， 
而 我 们 想 知 道 这 个 人 的 一 些 信息 ， 如 他 的 名 字 以 及 类 别 〈 这 种 情况 下 为 Person)。 现 在 ， 
我 们 也 给 每 个 边 添加 一 些 信息 ， 描 述 相连 两 点 之 间 的 关系 。 这 些 信息 可 以 是 看 过 的 电影 ， 
或 者 兄弟 、 父 亲 、 母 亲 以 及 妻子 之 类 的 关系 (如 图 5-2)。 



































图 5-2 : 将 信息 附加 到 点 和 边 上 


但 是 这 些 信息 仍然 不 够 。 我 们 知道 Karen 是 TJ 的 母亲 ， 但 是 TJ 不 可 能 也 是 Karen 的 母亲 ， 
而 且 我 们 知道 Andrew 看 过 电影 《钢铁 侠 》， 但 是 《钢铁 侠 》 不 可 能 看 Andrew。 所 以 ， 我 
们 可 以 给 每 个 边 定 一 个 方向 ， 这 样 就 解决 了 上 述 问题 。 效 果 如 图 5-3 所 示 。 
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图 5-3 : 描述 点 之 间 有 向 关系 的 边 


这 样 就 好 了 。 即 使 我 们 把 这 张 图 拿 给 一 个 毫 无 技术 背景 的 人 看 ， 他 也 能 够 理解 我 们 想 要 表 
达 的 内 容 。 


5.2 什么 是 图 处 理 


在 图 数 扩 
































居 处 理 中 ， 我 们 所 说 的 是 全 局 层面 的 处 理 ， 可 能 会 遍历 图 中 的 每 个 点 。 这 与 图 查询 




















(graph querying) 所 包含 的 意思 有 所 不 同 。 图 数据 的 查询 在 用 户 提 出 问题 (比如 ,“ 谁 与 
Karen 有 关系 ?“) 时 才 会 执行 。 该 类 查询 按照 以 下 步骤 执行 。 

(1) 查找 代表 Karen 的 点 ， 以 及 与 该 点 相连 的 所 有 的 边 。 

(2) 遍历 每 一 条 边 得 到 术 


(3) 返回 给 用 户 结果 列表 。 


在 这 里 ， 图 数据 处 理 所 包 含 的 意思 稍 有 不 同 。 我 们 指 的 不 是 “ 找 出 五 度 人 脉 中 的 Top 5”。 
到 的 查询 相 比 ， 这 个 问题 涉及 寻找 大 量 的 用 户 及 其 之 间 的 关系 ， 处 理 的 数据 规模 更 大 ， 





与 




















目 应 的 点 。 



































需要 更 多 的 处 理 资 源 。 与 图 数据 处 理 形 成 对 比 的 是 ， 图 的 查询 可 以 通过 一 个 客户 端 访问 类 
似 于 HBase 的 数据 存储 ， 只 需 车 干 个 跳 转 查 询 就 可 以 完成 对 单个 用 户 的 查询 。 

这 些 概念 在 实际 案例 中 的 应 用 如 下 所 示 。 

你 可 以 把 网 络 看 作 一 个 非常 大 的 图 , 网 页 是 点 , 超 链接 是 边 。 你 可 以 就 此 进行 各 种 分 析 。 
Google 用 于 计算 搜索 结果 排名 的 著名 算法 PageRank 就 是 一 个 例子 。 

如 前 面 内 容 所 述 ， 社 交 网 络 是 一 种 天 然 的 图 数据 处 理应 用 。 比 如 ， 你 可 以 就 此 测定 一 个 
网 站 中 各 用 户 之 间 的 人 脉 度数 。 

































































126 | 第 5 章 


图 灵 社 区 会 员 largelove(largelove@163.com) 专 享 尊重 版 权 














本 章 要 关注 的 重点 就 是 这 些 类 型 的 应 用 。 那 么 ， 如 何 利 用 Hadoop 数据 高 效 地 使 用 可 维护 
的 、 性 能 较 高 的 方法 来 解决 这 类 问题 呢 ? 


5.3 ”分 布 式 系 统 中 的 图 处 理 


为 了 在 类 似 Hadoop 之 类 的 系统 中 执行 这 类 数据 处 理 ， 我 们 先 从 MapReduce 开始 。 问 题 
是 MapReduce 只 能 提供 一 层 合并 ， 这 表明 我 们 不 得 不 像 剥 洋 花 一 样 来 处 理 图 数据 。 对 于 
不 剥 洋 获 的 人 来 说 ， 这 很 新 鲜 ， 因 为 剥 洋 获 和 削 苹 果 完 全 不 同 。 详 获 只 有 刊 掉 很 多 层 之 后 
才能 看 到 核心 。 另 外 ， 洋 竹 会 让 人 流 眼 钼 。 详 瓯 的 刺激 性 让 和 剥 详 瓯 的 过 程 更 加 不 愉快 ,使 
用 MapReduce 进行 图 数据 处 理 也 是 这 样 的 。MapReduce 有 时 可 能 会 让 你 想 哭 。 图 5-4 中 的 
图 为 一 个 类 似 于 “ 列 洋 瓯 ”的 使 用 案例 。 中 点 为 最 开始 的 人 ， 而 每 个 增加 的 圈 都 是 另 一 个 
MapReduce 任务 ， 每 层 中 相连 的 人 就 是 这 样 计算 的 。 






















































































5-4 ; 在 MapReduce 中 ， 图 处 理 如 同 剥 洋 瓯 





意识 到 每 一 条 路 径 都 需要 重新 将 整个 图 读 写 到 磁盘 ， 你 会 更 加 痛苦 。 


幸好 ，Googtle 的 智者 再 一 次 决定 打破 这 个 规则 ， 改 变 MapReduce 框架 中 mapper 之 间 不 能 
通信 的 情况 。 这 种 无 共享 的 思路 对 于 Hadoop 这 样 的 分 布 式 系 统 来 说 非常 重要 ， 因 为 它们 
依赖 于 同步 点 和 故障 恢复 策略 。 聪 明 人 是 怎么 解决 这 个 问题 的 呢 ? 总 之 他 们 找到 了 另外 的 
方法 应 对 同步 点 和 恢复 策略 ， 而 不 会 受到 mapper 的 限制 。 


5.3.1 块 同步 并 行 模型 

那么 ， 我 们 怎样 才能 保持 同步 处 理 而 又 打破 “mapper 之 间 不 能 通信 ”的 规则 呢 ? 来 自 哈佛 
大 学 的 英国 计算 机 科学 家 Leslie Valiant 提供 了 一 个 解决 方案 ， 他 在 20 世纪 90 年 代 创 建 了 
块 同 步 并 行 模型 (Bulk Synchronous Parallel，BSP)。BSP 模型 正 是 Google 图 处 理解 决 方 
案 Pregel 的 核心 。 
BSP 的 理念 非常 复杂 ， 同 时 又 很 简单 ， 说 穿 了 就 是 在 一 个 superstep 之 内 执行 分 布 式 的 数 
据 处 理 任务 。 这 种 分 布 式 数据 处 理 进程 能 够 互相 发 送 消息 ， 但 是 直到 下 一 个 superstep 开 
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始 之 前 都 不 能 处 理 消息 。 这 些 superstep 将 作为 我 们 需要 的 同步 点 发 挥 作 用 。 所 有 的 分 
布 式 处 理 任务 都 完成 ， 并 且 当 前 superstep 的 消息 也 已 经 发 送 完 毕 后 ， 才 会 到 达 下 一 个 











superstep。 接 下 来 通常 会 有 一 个 单线 程 程序 ， 决 定 整 个 数据 处 理 是 否 需 要 继续 并 进入 新 的 
superstep。 与 工作 任务 线程 相 比 ， 它 需要 执行 的 任务 非常 少 ， 所 以 可 以 接受 该 处 理 在 单线 








程 中 和 运行， 而 不 会 成 为 瓶颈 。 


5.3.2 BSP 举例 














不 可 否认 ， 确 定 分 布 式 数 据 处 理 的 简短 定义 花费 了 数 年 的 研究 。 我 们 将 通过 一 个 BSP 案例 





来 佐证 和 分 析 相 关 概 念 。 科 学 家 可 以 使 用 图 处 到 








的 方法 ， 对 疾病 在 一 个 社区 内 的 传播 建立 








模型 。 本 案例 中 ， 我 们 通过 僵尸 来 阐明 这 一 概念 一 一 僵尸 原本 是 人 类 ， 被 别 的 僵尸 咬 过 之 


后 变 为 僵尸 。 








让 我 们 来 制作 一 张 新 的 图 ， 并 把 这 个 图 命名 为 僵尸 咬 人 。 如 图 5-5， 开 始 时 图 中 含有 一 个 











僵尸 和 一 群 人 。 数 据 处 理 开 始 时 规则 是 这 样 的 





: 僵尸 可 以 唉 每 一 个 跟 其 共享 同一 个 边 的 


人 。 当 一 个 点 被 唉 之 后 ， 这 个 点 上 的 人 转变 为 僵尸 ， 而 且 开 始 咬 与 其 相连 接 的 其 他 人 。 一 
且 唉 人 ， 人 僵尸 周围 的 人 就 变 成 了 僵尸 ， 所 以 这 个 僵尸 不 会 再 继续 咬 周 围 的 点 。 有 无 数 的 全 


亡 电 影 能 够 告诉 我 们 ， 僵 尸 不 咬 其 他 僵尸 。 
图 5-5 为 BSP 执行 模型 的 不 同 superstep 中 的 图 


表 。 

















开始 状态 : 一 个 僵尸 该 僵尸 咬 伤 了 与 之 相连 的 所 有 的 被 咬 伤 的 点 变 成 了 僵尸 


新 的 僵尸 开始 咬 相 连 的 点 被 咬 伤 的 点 变 成 了 僵尸 








图 5-5 : 僵尸 咬 人 图 的 superstep 示意 图 
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本 章 将 介绍 两 个 图 数据 处 理工 具 (Giraph 与 GraphX) ， 并 演示 该 案例 的 实现 。 但 是 在 这 
之 前 你 需要 明白 ，BSP 并 不 是 唯一 的 解决 方法 。 我 们 在 深入 讨论 Spark 时 就 了 解 到 ， 使 用 
Spark 能 够 在 很 大 程度 上 降低 MapReduce 那 种 剥 详 熬 式 方法 带 来 的 缺 唤 。MapReduce 使 得 
每 个 洋 瓯 分 层 之 间 的 IO 读 写 操作 频繁 ， 而 Spark 大 大 缓解 了 这 些 问 题 ， 至 少 在 数据 能 够 
存储 在 内 存 时 效果 显著 。 但 是 我 们 也 已 经 说 过 ，BSP 模型 非常 独特 ， 只 会 在 分 布 式 数据 处 
理 进 程 之 间 发 送 消 息 。 使 用 剥 洋葱 的 方法 则 会 重新 发 送 所 有 的 消息 。 


在 后 面 两 节 ， 我 们 将 深入 讨论 目前 两 个 最 常用 的 Hadoop 图 数据 处 理 框架 。 首 先 要 介绍 的 
是 LinkedIn 创建 ， 由 Facebook 用 于 图 数据 搜索 的 Giraph。Giraph 是 一 种 更 为 成 熟 稳定 的 
系统 ， 宣 称 能 处 理 多 达 一 万 亿 的 边 。 

第 二 个 工具 是 较为 年 轻 的 GraphX， 它 是 Apache Spark 项 目的 一 部 分 。Spark GraphX 的 创 
建 基础 主要 为 GraphLab (http://dato.com/products/create/open_source.html)， 这 是 一 个 早期 
的 开源 图 数据 处 理 项 目 ， 在 Spark 通用 DAG 执行 引擎 的 基础 上 扩展 而 成 。 尽 管 GraphX 仍 
然 是 一 种 很 年 轻 的 工具 ， 而 且 不 如 Giraph 灵活 稳定 ， 但 它 的 使 用 方法 简单 ， 而 且 能 够 与 
Spark 的 所 有 其 他 组 件 兼容 ， 所 以 GraphX 的 前 景 很 广阔 。 


5.4 Giraph 


Giraph 是 Google Pregel 的 一 种 开源 实现 。 从 开始 创建 以 来 ，Giraph 就 被 用 于 图 数据 处 理 。 
我 们 已 经 注意 到 这 与 Spark 的 GraphX 有 所 不 同 ， 后 者 包含 一 种 基于 Spark DAG 引擎 的 
Pregel API 实现 。 


为 了 简单 了 解 一 Giraph， 我 们 会 去 掉 很 多 细节 内 容 ， 并 将 重点 放 在 Giraph 项 目的 三 个 主要 
阶段 (如 图 5-6 所 示 ) 。 


(1) 数据 的 输入 和 分 片 。 

(2) 使 用 BSP 进行 图 的 批 处 理 。 

(3) 将 图 回 写 磁盘 。 

我 们 在 这 里 没有 讨论 Giraph 的 其 他 细节 。 我 们 的 目的 是 为 你 提供 足够 多 的 内 容 ， 让 你 能 够 
决定 在 架构 中 添加 哪 种 工具 。 

下 面 我 们 来 详细 了 解 一 下 这 些 阶 段 ， 还 有 自 定义 这 些 阶 段 所 需要 的 代码 ， 以 及 僵尸 咬 人 的 


问题 9 
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读 取 数据 并 分 区 














散 列 分 区 





磁盘 上 的 数据 


-~~ 
iraph 工 作 进 程 Ginapn 工 作 进 和 NA 


Ld 





使 用 BSP 模 型 对 图 进行 批 处 理 











写 回 到 磁盘 上 
Giraph 工 作 进 程 




















5-6: Giraph 程序 的 三 个 主要 阶段 


5.4.1 数据 的 输入 和 分 片 


MapReduce 与 Spark 都 支持 InputFormat，Giraph 的 输入 格式 VertexInputFormat 则 与 之 
类 似 。 两 种 情况 的 输入 格式 都 能 够 对 数据 分 请， 并 作为 Reader 获得 一 条 记录 或 一 个 点 。 
在 这 个 实现 中 ， 我 们 将 保留 默认 的 分 片 逻 辑 ， 只 重 写 Reader。 因 此 ，ZombieTextVertex- 
InputFormat 很 简单 ， 如 下 所 示 。 


public class ZombieTextVertexInputFormat extends 
TextVertexInputFormat<LongWritable, Text, LongWritable> { 





@Override 
public TextVertexReader createVertexReader(InputSplit split, 
TaskAttemptContext context) 
throws IOException { 
return new ZombieTextReader(); 
} 
} 


下 面 我 们 需要 一 个 VertexReader 。VertexReader 与 普通 的 MapReduce RecordReader 相 比 ， 
主要 差别 在 于 后 者 会 返还 一 个 键 与 Writable 类 型 的 值 ， 而 前 者 返还 一 个 Vertex 对 象 。 
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那么 ，Vertex 对 象 又 是 什么 呢 ? 它 主 要 由 三 部 分 组 成 。 


。 顶点 ID 
这 种 ID 能 区 分 图 中 每 一 个 点 。 
。 顶点 值 





这 是 一 个 对 象 ， 包 含 点 的 信息 。 本 例 中 ， 它 将 存储 人 或 僵尸 的 状态 ， 以 及 他 或 她 变 成 僵 
户 的 阶段 。 我 们 使 用 字符 串 “Human” 表 示人 还 未 变 成 僵尸 ， 使 用 “zombie.2” 表 示 在 第 
二 个 superstep 被 咬 。 

。 边 
边 由 两 部 分 组 成 : 源 的 顶点 ID 与 一 个 包含 若干 信息 的 对 象 。 后 者 包含 的 信息 代表 边 的 
方向 与 /或 边 的 类 型 (比如 : 边 代 表亲 戚 关系、 距离 还 是 体重 ? ) 

我 们 已 经 了 解 了 点 ， 下 面 来 看 一 下 在 源 文件 中 如 何 描述 点 。 


{vertexId}|{Type}|{comma-separated vertexId of "bitable" people} 
2|Human|4,6 


这 是 一 个 卫 为 2 的 点 ， 目 前 代表 人 类 ， 而 且 与 点 4 和 点 6 之 间 均 相连 着 一 条 有 方向 的 边 。 
现在 来 看 一 下 这 条 边 以 及 将 其 转 成 Vertex 对 象 的 代码 。 


public class ZombieTextReader extends TextVertexReader { 








@Override 
public boolean nextVertex() throws IOException, InterruptedException { 
return getRecordReader().nextKeyValue(); 


I 


@Override 
public Vertex<LongWritable, Text, LongWritable> getCurrentVertex() 
throws IOException, InterruptedException { 
Text line = getRecordReader().getCurrentValue(); 
String[] majorParts = line.toString().split("\\|"); 
LongWritable id = new LongWritable(Long.parseLong(majorParts[0])); 
Text value = new Text(majorParts[1]); 


ArrayList<Edge<LongWritable, LongWritable>> edgeIdList = 
new ArrayList<Edge<LongWritable, LongWritable>>(); 


if (majorParts.Length > 2) { 
String[] edgeIds = majorParts[2].split(","); 
for (String edgeId: edgeIds) { 
DefaultEdge<LongWritable, LongWritable> edge = 
new DefaultEdge<LongWritable, LongWritable>(); 
LongWritable LongEdgeId = new LongWritable(Long.parseLong(edgeld)); 
edge.setTargetVertexId(LongEdgeId); 
edge.setVaLue(LongEdgeId); // dummy value 
edgelIdList.add(edge); 
} 
} 


Vertex<LongWritable, Text, LongWritable> vertex = getConf().createVertex(); 
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vertex.initialize(id, value, edgelIdlist); 
return vertex; 
} 
} 


这 段 代码 包含 的 内 容 很 多 ， 下 面 进行 分 解 。 














。 VertexReader 继承 了 TextVertexReader ， 因 此 能 够 一 行 行 地 读 取 文本 文件 。 注 意 ， 想 读 
取 任 何其 他 类 型 的 Hadoop 文件 ， 你 需要 改变 父 类 的 Reader 类 名 。 














。 nextvertex() 是 一 种 很 有 趣 的 方法 。 查 看 父 类 的 方法 ， 你 
RecordReader 来 尝试 读 取 下 一 行文 件 ， 并 返回 剩 下 的 文件 。 











会 发 现 这 其 实 使 用 了 通用 的 


。 使 用 方法 getCurrentvertex() 解析 文件 并 创建 、 填 充 一 个 Vertex 对 象 。 

所 以 ， 在 使 用 这 种 方法 时 ， 可 以 将 得 到 的 Vertex 对 象 分 区 存储 到 集群 中 不 同 的 分 布 式 
Worker 中 。 默 认 的 分 区 逻辑 为 基本 的 散 列 分 区 ， 你 也 可 以 对 其 修改 。 这 已 经 超出 了 本 例 的 
讲解 范围 ， 我 们 只 是 在 此 提醒 你 注意 控制 分 区 。 如 果 了 解 图 的 模式 ， 你 应 该 能 分 辨 出 这 种 























情况 : 图 分 布 到 了 较 少 的 分 布 式 任务 中 ， 网 络 使 用 可 能 不 充分 ， 











性 能 也 会 有 所 降低 。 





一 旦 数据 加 载 到 内 存 或 者 存 到 磁盘 中 (并 开启 Giraph 中 新 增 的 spill-to-disk 功能 ) ， 我 们 就 


能 够 开始 使 用 BSP 处 理 数据 了 ， 如 5.4.2 节 所 述 。 


在 开始 下 一 市 之 前 ， 你 需要 注意 一 点 : 这 只 是 一 个 VertexInputFormat 的 例子 。Giraph 中 
存在 更 多 高 级 的 选择 ， 如 通过 不 同 的 Reader 在 点 和 边 上 读 取 数据 ， 以 及 更 为 高 级 的 分 区 策 








略 ， 但 是 这 些 都 不 属于 本 书 的 讨论 范围 。 


5.4.2 ”使 用 BSP 批 处 理 图 
在 Giraph 中 ， 对 于 新 手 来 说 BSP 执行 模式 是 最 难 懂 的 。 为 了 











让 这 个 概念 更 容易 理解 ， 我 








们 将 重点 放 在 三 个 计算 阶段 : 顶点 、 主 线程 与 工作 线程 。 后 














下 将 呈现 这 三 个 阶段 的 代码 ， 














我 们 来 看 一 下 图 5-7。 




















从 图 中 可 以 看 到 ， 每 一 个 BSP 都 从 一 个 主线 程 计算 阶段 开始 ， 然 后 是 每 个 分 布 式 JVM 的 
工作 线程 计算 阶段 ， 最 后 是 相应 的 JVM 本 地 内 存 或 本 地 磁盘 中 每 个 点 的 顶点 计算 阶段 。 


这 些 顶 点 计算 可 能 会 处 理 消 息 ， 然 后 这 些 消息 被 发 送 到 接收 点 ， 但 是 直到 下 一 个 BSP 通 





过 ， 接 收 点 才能 接收 到 这 些 消息 。 
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图 5-7: BSP 执行 模式 的 三 个 计算 阶段 :顶点 计算 阶段 、 主 线程 计算 阶段 、 工 作 线程 计算 阶段 
我 们 从 最 简单 的 计算 阶段 〈 即 主线 程 计 算 ) 开始 。 


public class ZombieMasterCompute extends DefauLtMasterCompute { 


@Override 
public void compute() { 
LongWritable zombies = getAggregatedValue("zombie.count"); 


System.out.println("Superstep "+String.valueOf(getSuperstep())+ 

" - zombies:" + zombies); 
System.out.println("Superstep "+String.valueOf(getSuperstep())+ 

" - getTotalNumEdges():" + getTotalNumEdges()); 
System.out.println("Superstep "+String.valueOf(getSuperstep())+ 

" - getTotalNumVertices():" + 

getTotalNumVertices()); 


} 


@Override 
public void initialize() 
throws InstantiationException, IllegalAccessException { 
registerAggregator("zombie.count", LongSumAggregator .class); 
} 
} 


下 面 我 们 在 ZombieMasterCompute 类 中 深入 研究 这 两 个 方法 。 我 们 先 来 看 一 下 initialize() 
方法 一 一 在 真正 开始 之 前 可 以 这 么 称呼 它 。 重 要 的 是 我 们 在 这 里 注册 了 一 个 Aggregator 类 。 


Aggregator 类 与 MapReduce 中 的 高 级 计数 器 相似 ， 但 是 更 像 Spark 中 的 accumulator。 
Giraph 中 存在 很 多 aggregator 可 供 选 择 ， 如 后 面 列 表 所 示 。 用 户 也 可 以 创建 自 定义 的 


aggregator 。 





Hadoop 图 处 理 | 133 
图 灵 社 区 会 员 largelove(largelove@163.com) 专 享 尊重 版 权 





以 下 为 一 些 Giraph aggregator 的 例子 。 


求 和 (Sunm) 

求 平均 (Avg) 

求 最 大 值 (Max) 

求 最 小 值 (Min) 

文本 方式 追加 (TextAppend) 
和 /或 布尔 运算 (And/0r) 


ZombieMasterCompute 中 的 第 二 个 方法 是 compute()， 这 种 方法 会 在 每 个 BSP 开始 的 时 候 运 
行 。 在 此 我 们 只 打印 协助 调试 过 程 的 信息 。 


下 面 讲 一 下 后 面 的 一 些 代码 ， 即 用 于 工作 线程 计算 阶段 的 ZombieWorkerContext。 这 些 代 
码 将 在 应 用 与 每 个 superstep 的 前 后 执行 ， 并且 可 以 用 于 一 些 高 级 操作 。 比 如 ， 在 一 个 
superstep 开始 时 放置 合并 的 数据 ， 使 其 能 够 访问 顶点 计算 阶段 。 在 这 里 ， 我 们 只 使 用 
System.out.println()， 所 以 我 们 能 看 到 在 数据 处 理 过 程 中 不 同方 法 被 调用 的 时 间 。 






































public class ZombieWorkerContext extends WorkerContext { 


@Override 
public void preApplication() { 


System.out.println("PreApplication # of Zombies: "+ 
getAggregatedValue("zombie.count")); 
} 
@Override 
public void postApplication() { 
System.out.println("PostApplication # of Zombies: " + 
getAggregatedValue("zombie.count")); 
} 
@Override 
public void preSuperstep() { 
System.out.println("PreSuperstep # of Zombies: " + 
getAggregatedValue("zombie.count")); 
} 
@Override 
public void postSuperstep() { 
System.out.printLn("PostSuperstep # of Zombies: " + 


getAggregatedValue("zombie.count")); 


} 
} 


最 后 是 最 复杂 的 顶点 计算 阶段 。 


public class ZombieComputation 
extends BasicComputation<LongWritable,Text, LongWritable, LongWritable> { 
private static final Logger L0G = Logger .getLogger(ZombieComputation.class); 
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Text zombieText = new Text( "Zombie"); 
LongWritable LongIncrement = new LongWritable(1); 


@Override 
public void compute(Vertex<LongWritable, Text, LongWritable> vertex, 
Iterable<LongWritable> messages) throws IOException { 
Context context = getContext(); 
Long superstep = getSuperstep(); 


if (superstep == 0) { 
if (vertex.getValue().toString().equals("Zombie")) { 
zombieText.set("Zombie." + superstep); 
vertex.setValue(zombieText); 


LongWritable newMessage = new LongWritable(); 
NewMessage.set(superstep+1); 


aggregate("zombie.count",longIncrement ); 


for (Edge<LongWritable, LongWritable> edge : vertex.getEdges()) { 
this.sendMessage(edge.getTargetVertexId(), newMessage); 
} 


} 
} else { 


if (vertex.getValue().toString().equals("Human")) { 


Iterator<LongWritable> it = messages.iterator(); 
if (it.hasNext()) { 
zombieText.set("Zombie." + superstep); 
vertex.setValue(zombieText); 
aggregate("zombie.count" ,LongIncrement ); 


LongWritable newMessage = new LongWritable(); 
newMessage.set(superstep+1); 


for (Edge<LongWritable, LongWritable> edge : vertex.getEdges()) { 
this.sendMessage(edge.getTargetVertexId(), newMessage); 


} 
} elsef 
vertex.voteToHalt(); 


3 


} else { 
vertex.voteToHalt(); 
} 
} 
3 
} 


本 代码 中 存在 许多 具体 的 逻辑 ， 我 们 会 深入 地 研究 每 个 操作 ， 但 是 首先 要 明白 compute() 
方法 如 何 调 用 。 每 个 点 均 会 调用 compute() 方法 ， 而 且 在 最 后 一 个 superstep 结束 时 ， 所 
有 消息 的 迭代 器 会 将 消息 发 送 到 点 上 。 
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逻辑 流程 如 下 所 示 。 

。 如 果 这 是 第 一 个 superstep， 而 且 我 是 一 个 僵尸 ， 那 么 我 周围 的 每 一 个 人 都 要 被 咬 。 

。 如 果 在 第 一 个 superstep 之 后 ,而 且 我 是 一 个 接受 唉 人 消息 的 人 ,那么 我 自己 会 变 成 僵尸， 
还 会 去 咬 我 周围 的 每 一 个 人 。 

。 如 有 果 我 是 一 个 僵尸 ， 而 且 被 咬 了 ， 那 么 不 会 有 任何 改变 

同时 需要 注意 的 是 ， 我 们 提出 在 两 个 位 置 停止 : 僵尸 被 唉 或 者 人 类 未 被 紧 。 这 样 做 的 原 项 

在 于 有 以 下 两 种 最 终 状 态 。 


。 我 们 可 以 让 每 个 人 都 被 唉 然后 变 成 僵尸 ， 而 在 那 一 点 上 我 们 需要 停止 数据 处 理 。 
。 我 们 可 以 使 僵尸 与 人 类 之 间 没 有 直接 相连 的 边 。 所 以 这 些 人 类 永远 都 不 会 变 成 僵尸。 


5.4.3 ”将 图 回 写 磁盘 


图 中 已 经 产生 了 很 多 僵尸 ， 现 在 应 该 将 结果 写 回 磁盘 了 。 我 们 使 用 Vertex0utputFormat 完 
成 写 回 数据 。 这 里 不 会 涉及 细节 内 容 ， 只 要 注意 这 与 InputFormat 相反 即 可 。 


public class ZombieTextVertexOutputFormat 
extends TextVertexOutputFormat<LongWritable, Text, LongWritable> { 






































@Override 

public TextVertexWriter createVertexWriter(TaskAttemptContext context) 
throws IOException, InterruptedException { 
return new ZombieRecordTextWriter(); 


} 


public class ZombieRecordTextWriter extends TextVertexWriter { 
Text newKey = new Text(); 
Text newValue = new Text(); 


public void writeVertex(Vertex<LongWritable, Text, LongWritable> vertex) 
throws IOException, InterruptedException { 
Iterable<Edge<LongWritable, LongWritable>> edges = vertex.getEdges(); 


StringBuilder strBuilder = new StringBuilder(); 


boolean isFirst = true; 
for (Edge<LongWritable, LongWritable> edge : edges) { 
if (isFirst) { 
isFirst = false; 
} elsef{ 
strBuilder .append(","); 
} 
strBuilder .append(edge.getValue()); 
} 


NewKey.set(vertex.getId().get() + "|" + vertex.getValue() + "|" 
+ strBuilder.toString()); 


getRecordWriter().write(newKey, newValue); 
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5.4.4 整体 流程 控制 


现在 ， 与 MapReduce 中 的 情况 类 似 ， 我 们 需要 将 一 切 都 设 定好 ， 而 且 在 主 函 数 中 进行 配 
置 。 代 码 如 下 。 


public class ZombieBiteJob implements TooL { 
private static final Logger L0G = Logger.getLogger(ZombieBiteJob.class); 
private Configuration conf; 


@Override 
public void setConf(Configuration conf) { 
this.conf = conf; 


} 


@Override 
public Configuration getConf() { 
return conf; 


} 


@Override 
public int run(String[] args) throws Exception { 
if (args.length != 3) { 
throw new IllegalArgumentException( 
"Syntax error: Must have 3 arguments "+ 
" <numbersOfWorkers> <inputLocaiton> <outputLocation>"); 


} 


int numberOfWorkers = Integer.parseInt(args[0]); 
String inputLocation = args[1]; 
String outputLocation = args[2]; 


GiraphJob job = new GiraphJob(getConf(), getClass().getName()); 
GiraphConfiguration gconf = job.getConfiguration(); 
gconf .setWorkerConfiguration(numberOfWorkers, numberOfWorkers, 100.0f); 


GiraphFileInputFormat.addVertexInputPath(gconf, 
new Path(inputLocation)); 
FiLLeOutputFormat .setOutputPath(job.getInternaLJob() ， 
new Path(outputLocation)); 


gconf.setComputationClass(ZombieComputation.class); 
gconf.setMasterComputeClass(ZombieMasterCompute.class); 
gconf.setVertexInputFormatClass(ZombieTextVertexInputFormat.class); 
gconf.setVertexOutputFormatClass(ZombieTextVertexOutputFormat.class); 
gconf.setWorkerContextClass(ZombieWorkerContext.class); 


boolean verbose = true; 
if (job.run(verbose)) { 


return 0; 
} else { 
return -1; 
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} 
} 


public static void main(String[] args) throws Exception { 
int ret = ToolRunner.run(new ZombieBiteJob(), args); 
if (ret == 0) { 
System.out.println("Ended Good " ) ; 
} elsef{ 
System.out.println("Ended with Failure"); 


} 


System.exit(ret); 
} 
} 


5.4.5” 何 时 选用 Giraph 


Giraph 的 功能 非常 强大 ， 但 是 就 像 我 们 从 概念 和 需要 的 代码 中 看 到 的 ， 它 会 挑战 你 的 心 
理 承受 能 力 。 不 过 ， 如 果 需 要 进行 图 数据 处 理 ， 保 证 确切 的 服务 等 级 协议 (Service-Level 
Agreement，SLA) ， 而 且 需 要 成 熟 的 解决 方案 ， 那 么 可 以 选择 Giraph。 


但 是 要 注意 ， 目 前 并 不 是 所 有 主流 Hadoop 厂商 发 行 的 版 本 都 支持 Giraph。 这 并 不 是 说 
Giraph 不 能 用 于 你 所 选择 的 发 行 版 本 ， 只 是 可 能 需要 与 Hadoop 厂商 进一步 沟通 ， 看 一 下 
是 否 能 获得 这 类 支持 。 你 至 少 可 以 为 自己 的 发 行 版 本 编译 Giraph 对 应 的 Jar 包 。 


5.5 Graph 久 


第 4 章 从 替代 MapReduce 进行 ETL 的 角度 ， 对 Spark 进行 了 大 量 讨论 。 但 是 对 于 图 
数据 处 理 ，Spark 是 怎样 成 为 MapReduce 有 力 竞 争 者 的 呢 ? Spark 的 GraphX 解决 了 
MapReduce 的 两 个 主要 问题 ， 而 Pregel 与 Giraph 也 是 为 了 解决 这 两 个 问题 而 设计 的 : 对 数 
据 和 迭代 处 理 进 行 提速 ， 并 让 数据 尽 可 能 接近 内 存 (在 内 存 中 进行 处 理 )。Spark 的 GraphX 
作为 图 数据 处 理 框架 也 提供 了 另 一 个 优势 ， 即 图 只 是 另外 一 种 类 型 的 RDD。 也 就 是 说 ， 对 
于 已 经 了 解 Spark 的 开发 者 来 说 ，GraphX 是 一 个 熟悉 的 编程 模型 。 


公平 地 说 ，Spark 上 的 图 数据 处 理 仍 然 很 新 ， 这 也 反映 在 我 们 看 到 的 代码 案 
例 中 。 你 会 注意 到 ， 它 是 使 用 Scala 语言 实现 的 。 这 是 因为 在 本 文 写作 时 还 
没有 可 用 的 Java API。 






































































































































5.5.1 另 一 种 RDD 

Spark 中 存在 几 种 基本 的 RDD。 其 中 最 常见 的 是 RDD 与 PairRDD。 你 可 能 已 经 猜 到 了 ， 
要 从 常用 的 Spark 中 进行 图 数据 处 理 ， 只 需要 创建 一 个 EdgeRDD 和 一 个 VertexRDD， 两 
者 都 是 常见 RDD 对 象 的 简单 扩展 。 

我 们 能 够 通过 一 个 简单 的 Map 转化 功能 ， 从 任何 一 个 RDD 得 到 EdgeRDD 或 VertexRDD。 
这 并 不 神奇 。 从 普通 Spark 到 GraphX 的 最 后 一 步 是 将 两 个 新 的 RDD 放置 到 一 个 Graph 对 























A 


138 | 第 5 章 
图 灵 社 区 会 员 largelove(largelove@163.com) 专 享 尊重 版 权 


象 中 。 该 Graph 对 象 只 包含 这 两 个 RDD 的 引用 ， 而 且 提 供 对 其 进行 图 处 理 的 方法 。 











对 象 中 输出 EdgeRDD 或 VertexRDD， 并 且 开 始 对 其 执行 一 般 的 RDD 功能 。 


我 们 来 看 一 下 代码 ， 这 样 更 容易 理解 。 以 下 代码 得 到 了 一 个 SparkContext， 而 且 创建 了 得 
到 一 个 图 所 需要 的 两 个 RDD。 


val sc = 
new Spa 





rkContext(args(0), args(1), args(2), Seq("GraphXExample.jar")) 


// 为 点 创建 RDD 
val users: RDD[ (VertexId, (String))] = 
sc.parallelize(Array( 


(1L， 
(2L， 
(3L， 
(4L， 
(5L， 
(6L， 
(7L， 
(8L， 
(9L， 
(10L, 
Ci 
(12L， 
(13L， 
(14L， 
(15L， 
(16L， 
(17L， 
(18L， 
(19L, 
(20L, 
C221, 
(22Ls 
23 
(24L， 
(25L， 


("Human")), 
("Human")), 
("Human")), 
("Human")), 
("Human")), 
("Zombie")), 
("Human")), 
("Human")), 
("Human")), 
("Human")), 
("Human")), 
("Human")), 
("Human" ) ) ， 
("Human'" ) ) ， 
("Human'" ) ) ， 
("Zombie")), 
("Human" ) ) ， 
("Human'" ) ) ， 
("Human'" ) ) ， 
("Human'" ) ) ， 
("Human'" ) ) ， 
("Human'" ) ) ， 
("Human'" ) ) ， 
("Human'" ) ) ， 
("Human")) 


图 处 理 模式 很 容易 通过 GraphX 进入 ， 也 很 容易 由 此 脱离 。 任 何 时 候 我 们 都 能 够 从 Graph 





)) 
// 为 边 创建 RDD 


val relationships: RDD[Edge[String]] = 
sc.parallelize(Array( 


Edge(10L, 9L, 
Edge(10L, 8L, 
Edge(8L， 
Edge(8L， 
Edge(5L， 
Edge(5L， 
Edge(5L， 
Edge(9L， 


Edge(6L，1L， 


ey 
"x"), 
"x"), 
Ws 
"x"), 
we 
wp 
Wi 


Edge(20L, 11L, "X"), 
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Edge(20L, 12L, "X"), 
Edge(20L, 13L, "X"), 
Edge(5L, 13L, "X"), 

Edge(20L, 14L, "X"), 
Edge(11L, 15L, "X"), 
Edge(20L, 16L, "X"), 
Edge(14L, 17L, "X"), 
Edge(1L, 17L, "X"), 

Edge(20L, 18L, "X"), 
Edge(21L, 18L, "X"), 
Edge(21L, 22L, "X"), 
Edge(4L, 23L, "X"), 

Edge(25L, 15L, "X"), 
Edge(24L, 3L, "X"), 

Edge(21L, 19L, "xX") 

)) 


// 创 建 一 个 默认 用 户 ,以 防 万 一 有 关系 丢失 对 应 的 用 户 





val defaultUser = ("Rock") 

// 创 建 初始 的 图 
val graph = Graph(users, relationships, defaultUser) 
graph.triangLeCount 


这 里 发 生 的 事情 同样 谈 不 上 神奇 。SparkContext 的 parallelize() 方法 与 我 们 用 来 创建 正 
常 RDD 的 方法 相同 。 注 意 ， 我 们 在 代码 中 填充 了 相同 的 数据 ， 所 以 读 起 来 更 容易 理解 。 
但 是 数据 也 很 容易 从 磁盘 中 加 载 。 


在 介绍 数据 处 理 代码 之 前 ， 我 们 先 花 一 分 钟 的 时 间 来 讨论 一 下 defaultUser 变量 。 在 
GraphX 中 ， 你 可 以 选择 针对 点 进行 打捞 (catch-all vertex) ， 这 就 是 所 谓 的 default。 如 果 
发 送 到 一 个 不 存在 的 点 ， 那 么 消息 就 会 发 送 到 default 上 。 在 这 个 例子 中 ， 如 果 一 个 僵尸 尝 
试 咬 一 个 不 存在 的 人 ， 那 么 这 个 僵尸 就 会 很 不 幸 地 被 绊 倒 然后 咬 到 石头 。 但 是 不 用 担心 ， 
僵尸 已 经 死 了 ， 所 以 不 会 受伤 。 



































5.5.2 ”GraphX 的 Pregel 接 口 


在 研究 代码 之 前 我 们 需要 考虑 两 个 因素 。 首 先 ，GraphX Pregel API 与 Giraph 不 同 。 第 二 ， 
代码 在 Scala 中 ， 所 以 非常 紧凑 。 因 此 我 们 需要 花费 一 些 时 间 将 其 分 解 。 虽 然 如 此 ， 但 是 
仍然 需要 广 意 ， 我 们 在 Giraph 中 写 的 300 多 行 代码 现在 已 经 通过 GraphX 被 Scala 写 的 20 
行 代码 所 替换 。 


// 所 有 的 伪 己 咬 人 的 逻辑 在 此 
val graphBites = graph.pregeL(OL)( 
(id, dist, message) => { 
if (dist.equals("Zombie")) { 
(dist + "_" + message) 
} else if (message != 0){ 
"Zombie" + "_" + message 
} elsef{ 
dist + "|" + message 














i 
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}, triplet => { 
if (triplet.srcAttr.startsWith("Zombie") && 
triplet.dstAttr .startsWith("Human")) { 
var stringBitStep = 
triplet.srcAttr.substring(triplet.srcAttr.indexOf("_") + 1) 
var lastBitStep = stringBitStep.toLong 
Iterator((triplet.dstId, lastBitStep + 1)) 
else if (triplet.srcAttr.startsWith("Human") && 
triplet.dstAttr .startsWith("Zombie")) { 
var stringBitStep = 
triplet.dstAttr .substring(triplet.dstAttr.indexOof("_") + 1) 
var lastBitStep = stringBitStep.toLong 
Iterator((triplet.srcId, lastBitStep + 1)) 
else { 
Iterator .empty 
} 
]， 
(a, b) => math.min(b, a)) 


graphBites .vertices.take(30) 
如 果 能 自己 解 而 这 个 代码 ， 那 么 你 可 能 比 作 者 更 渊博 。 我 们 先 定 义 graph.pregel() 方法， 
分 解 代码 。 
graph.pregel() 包含 两 个 参数 : 第 一 个 是 值 的 集 ， 第 二 个 是 函数 集 ， 二 者 将 同时 执行 。 
在 第 一 个 参数 集 当 中 ， 我 们 只 使 用 第 一 个 参数 ， 定 义 如 下 。 
。 第 一 条 消息 
。 最 大选 代 次 数 〈 使 用 默认 值 即 可 ， 不 使 用 该 参数 ) 
。 边 的 方向 〈 使 用 默认 值 即 可 ， 不 使 用 该 参数 )。 
我 们 发 送 的 第 一 条 消息 为 0。 注意 ， 与 Giraph 不 同 ， 我 们 不 能 访问 一 个 superstep 的 数值 。 
所 以 对 于 该 例 ， 我 们 会 追踪 消息 中 的 superstep。 这 并 不 是 执行 superstep 的 唯一 方法 。 我 
们 随后 会 深入 讨论 这 部 分 内 容 。 
如 果 没 有 更 多 消息 发 送 ， 而 且 我 们 想 继续 进行 直到 达到 那个 点 ， 那 么 GraphX 会 停止 运行 ， 
所 以 我 们 没有 设置 最 大 迫 代 。 
第 二 个 参数 集 包含 一 系列 数据 处 理 方法 。 
。 vprog() 
一 种 用 户 自 定义 的 点 程序 。 换 句 话 说 ， 当 一 条 消息 到 达 一 个 点 时 它 能 够 确定 如 何 处 理 。 
。 sendMessage() 
该 方法 包含 点 发 送信 息 的 逻辑 (可 能 要 发 送信 息 ， 可 能 不 要 发 送信 息 )。 
。 mergeMessage() 
该 方法 包含 一 种 功能 ， 能 确定 到 达 同 一 个 点 的 销 息 如 何 合并 。 当 数 百 万 个 点 将 一 条 信息 
发 送 到 同一 个 点 时 ， 该 功能 会 非常 实用 。 
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5.5.3 vprog() 
现在 ,我 们 一 起 深入 讨论 一 下 GraphX 代码 中 的 每 一 种 方法 ， 首 先是 vprog() 方法 。 


(id, dist, message) => { 
if (dist.equals("Zombie")) { 
(dist + "_" + message) 

} else if (message != 0){ 
"Zombie" + "_" + message 

} else { 
dist + "|" + message 

} 


} 
我 们 可 以 看 到 这 种 方法 获取 了 点 的 D、 包 含 点 的 信息 的 对 象 以 及 被 发 送 到 点 的 消息 。 在 这 
种 方法 中 ， 我 们 确定 了 是 否 需要 修改 点 的 信息 对 象 ， 以 对 即将 达到 的 消息 做 出 反应 。 
该 代码 中 的 逻辑 非常 简单 。 如 果 消 息 是 0 ( 即 第 一 个 superstep)， 则 更 新 僵尸 ， 将 其 设置 
为 Zombie 9。 如 果 消 息 大 于 0， 则 将 人 改 为 一 个 Zombie_{messageNUM}。 否 则 不 需要 修改 点 。 





5.5.4 sendMessage() 


下 一 种 方法 规定 了 发 送 消息 的 时 间 。 有 趣 的 是 ，GraphX 与 Giraph 相反 ， 在 计划 将 消息 发 
出 时 能 够 访问 目标 点 的 信息 。 这 样 咬 人 信息 就 不 会 发 送 到 其 他 僵尸 对 应 的 点 上 ， 咬 人 的 消 
息 不 会 浪费 。 


在 这 种 方法 中 你 可 以 看 到 ， 我 们 能 够 访问 triplet 对 象 。 该 对 象 包含 了 我 们 需要 的 源 、 目 
标点 以 及 相连 接 的 边 相 关 的 所 有 信息 。 


triplet => { 
if (triplet.srcAttr.startsWith("Zombie") && 
triplet.dstAttr .startsWith("Human")) { 
var stringBitStep = 
triplet.srcAttr.substring(triplet.srcAttr.indexOf("_") + 1) 
var lastBitStep = stringBitStep.toLong 
Iterator((triplet.dstId, lastBitStep + 1)) 
} else if (triplet.srcAttr.startsWith("Human") && 
triplet.dstAttr .startsWith("Zombie")) { 
var stringBitStep = 
triplet.dstAttr .substring(triplet.dstAttr.indexOof("_") + 1) 
var lastBitStep = stringBitStep.toLong 
Iterator((triplet.srcId, lastBitStep + 1)) 
} else { 
Iterator .empty 














} 
此 处 的 逻辑 非常 简单 :如果 源 是 一 个 僵尸 ， 而 且 目 标 是 人 类 ， 那 么 发 送 一 个 咬 人 的 消息 。 

















5.5.5 mergeMessage() 


最 后 一 个 方法 是 目前 来 说 最 简单 的 方法 。 我 们 需要 做 的 是 合并 消息 ， 所 以 我 们 只 需要 咬 一 
次 人 。 多 次 咬 人 并 不 会 制造 出 更 多 伪 尸 ， 而 只 会 浪费 网 络 带 宽 。 
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(a，b) => math.min(b, a) 


本 例 执行 了 math.mitn(b，a)， 但 是 这 并 不 是 必需 的 。 原 因 在 于 b 与 3 通常 是 同一 个 值 。 我 
们 使 用 math.min() 向 你 展示 该 项 功能 中 能 够 使 用 的 方法 。 下 面 的 代码 也 能 执行 这 种 操作 ， 
但 是 可 能 没 那 么 容易 理解 。 

(a，b) => a 























GraphX 与 Giraph 
在 比较 GraphX 与 Giraph 时 你 会 注意 到 ，GraphX 中 丢失 了 很 多 东西 ， 包 括 下 面 这 些 。 
。 主线 程 计算 


。 阻塞 等 待 
。 工作 线程 计算 
。 起步 


第 一 次 接触 GraphX 时 ， 你 可 能 会 很 浊 表 地 发 现 Giraph 中 所 有 工具 都 不 见 了 ， 直 到 你 
意识 到 GraphX 是 一 种 基于 Spark 的 图 处 理 。 那 么 ， 这 又 意味 着 什么 呢 ? 


记 住 Giraph 的 三 个 阶段 : 读 取 、 处 理 与 写 入 。 但 是 对 于 开发 者 来 说 ，GraphX 中 的 这 
三 个 阶段 并 不 是 很 明确 ， 因 为 开发 者 可 以 通过 Spark 按照 需求 随意 混合 处 理 类 型 。 
此 ， 应 用 能 够 执行 从 Spark 转化 到 GraphX 的 处 理 ， 而 后 返回 到 Spark。 这 一 功能 使 得 
你 能 够 在 应 用 中 混合 处 理 模型 。 于 是 ，GraphX 中 三 个 阶段 并 不 是 很 明确 ， 但 是 Spark 
模型 为 数据 处 理 提供 了 更 大 的 灵活 性 。 











5.6 工具 选择 


在 本 书写 作 时 ， 从 成 熟 度 方面 来 讲 ，Giraph 优 于 GraphX， 但 是 随 着 时 间 的 演进 ， 这 个 差 
距 会 缩小 。 短 期 之 内 ， 你 可 以 这 样 进 行 选择 : 如 果 要 处 理 的 全 都 是 图 数据 ， 而 且 需 要 可 伸 
缩 的 最 稳定 方法 ， 那 么 你 最 好 选择 Giraph。 如 果 图 数据 处 理 只 是 解决 方案 中 的 一 环 ， 而 且 
集成 与 代码 的 整体 灵活 性 比较 重要 ， 那 么 GraphX 可 能 是 一 个 不 错 的 选择 。 










































































5.7 ”小结 


长 期 以 来 ，Graph 在 计算 机 科学 中 都 是 一 个 核心 概念 。 通 过 集成 图 处 理 与 Hadoop， 我 们 现 
在 能 够 有 效 地 应 对 极 大 的 图 数据 ， 而 且 花 费 的 时 间 比 以 前 的 系统 少 。 


尽管 Hadoop 中 的 图 数据 处 理 生 态 系 统 相 对 来 说 仍然 很 年 轻 ， 但 是 它 发 展 得 很 快 ， 而 且 极 
其 适合 解决 各 种 类 型 的 问题 (如 人 、 地 点 或 者 事物 之 间 的 关系 分 析 )。 当 这 些 关 系 方面 的 
数据 持续 激增 时 ， 存 储 与 数据 处 理 能 力也 需要 随 之 增加 ， 这 个 时 候 Hadoop 中 的 图 数据 处 
理 就 更 有 优势 了 。 


本 章 旨 在 提供 一 种 思路 ， 让 你 了 解 什 么 样 的 应 用 适合 采用 图 数据 处 理 。 另 外 ， 本 章 概 述 了 
目前 用 于 图 数据 处 理 的 Hadoop 工具 ， 以 指导 你 选择 正确 的 工具 。 
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第 6 章 





工作 流 协调 调度 (workflow orchestration)， 也 称 工 作 流 自动 化 (workflow automation) 或 
者 业务 处 理 自动 化 (business process automation)， 实 际 上 指 计划 、 调 度 以 及 管理 工作 流 
的 任务 。 工 作 流 (workflow) 是 一 系列 的 数据 处 理 操作 。 能 够 执行 自动 化 流程 的 系统 称 
作协 调调 度 框架 (orchestration framework) 或 者 工作 流 自 动 化 框架 (workflow automation 


framework ) 。 


工作 流 协调 调度 是 应 用 框架 中 很 重要 的 一 部 分 ， 但 是 经 常 被 名 略 。 它 在 Hadoop 中 尤为 重 
要 ， 原 因 在 于 很 多 应 用 创建 时 都 是 一 个 个 的 MapReduce 任务 ， 而 在 一 个 单一 任务 中 能 够 执 
行 的 操作 非常 有 限 。 即 使 Hadoop 工具 集 不 断 地 发 展 ， 类 似 于 Spark 的 更 加 灵活 的 数据 处 
时 框架 逐渐 占据 主导 地 位 ， 将 复杂 的 数据 处 理工 作 流 分 解 ， 输 入 可 以 重复 使 用 的 组 件 中 ， 
以 及 使 用 外 部 引擎 处 理 将 结果 再 聚合 到 一 起 ， 也 还 是 很 有 益处 的 。 


~ 全 人 外 
6.1 工作 流 协 调调 度 的 必要 性 
使 用 Hadoop 创建 端 到 端 (end-to-end) 的 应 用 通常 涉及 一 些 数据 处 理 步 又 。 用 户 可 能 会 通 
过 Sqoop 获取 关系 型 数据 库 中 的 数据 ， 并 将 其 输出 至 Hadoop， 然 后 运行 MapReduce 任务 ， 
根据 一 些 数据 约束 校 验 数据 ， 将 数据 转化 为 更 适合 的 格式 。 然 后 ， 用 户 可 能 会 执行 一 些 
Hive 任务 ， 聚 合并 分 析 数 据 。 特 别 关注 分 析 时 ， 可 能 需要 增加 额外 的 MapReduce 步骤 。 
每 一 个 任务 都 可 以 看 作 一 个 操作 (action)。 这 些 操 作 需 要 调度 、 协 调 与 管理 。 
比如 ， 用 户 可 能 会 这 样 调度 一 个 操作 。 
。 操作 在 一 个 特定 时 间 执 行 。 
。 操作 在 一 个 周期 性 的 间隔 之 后 执行 。 
。 操作 在 一 个 事件 发 生 时 (如 ， 当 文件 可 用 时 ) 执行 。 
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用 户 可 能 会 想 这 样 协调 一 个 操作 。 

。 前 一 个 操作 成 功 完成 时 ， 开 始 运行 这 个 操作 。 

用 户 可 能 想 这 样 管理 一 个 操作 。 

。 操作 成 功 或 失败 ， 需 要 发 送 电子 邮件 通知 。 

。 记录 完成 操作 所 需要 的 时 间 ， 或 者 完成 操作 的 不 同步 骤 所 需要 的 时 间 。 

以 上 一 系列 的 操作 或 者 工作 流 可 以 通过 一 个 有 向 无 环 图 (Directed Acyclic Graphn，DAG) 
来 表示 。 执 行 工作 流 时 ， 操 作 要 么 并 行 ， 要 么 根据 前 次 操作 的 结果 执行 。 

工作 流 协 调调 度 将 复杂 的 处 理 过 程 分 解 形 成 简单 的 、 可 重复 使 用 的 单元 ， 这 正 是 良好 的 工 
程 实践 。 工 作 流 引 擎 有 助 于 确定 工作 流 组 件 之 间 的 接口 。 另 外 ， 这 里 不 需要 考虑 应 用 的 逻 
辑 ， 因 为 使 用 的 是 自动 化 流程 系统 已 经 存在 的 一 部 分 。 

良好 的 工作 流 自 动 化 流程 引擎 能 够 支持 这 样 一 些 业务 需求 : 元 数据 与 数据 血缘 跟踪 (追踪 
特定 数据 如 何 通过 转化 和 合并 步骤 进行 修改 )、 企 业 中 不 同 软件 之 间 的 集成 、 数 据 生 命 周 
期 管理 以 及 数据 质量 的 追踪 与 报告 。 这 里 也 支持 运 维 功能 ， 如 管理 工作 流 组 件 的 存储 库 、 
规划 灵活 的 工作 流 、 管 理 依赖 关系 、 监 控 来 自 集中 化 位 置 的 工作 流 状 态 、 重 试 失败 的 工作 
流 、 生 成 报表 以 及 监测 到 问题 出 现时 回 深 工作 流 。 

下 面 我 们 来 讨论 一 下 对 于 架构 师 来 说 ， 有 哪些 基于 Hadoop 的 应 用 进行 协调 调度 的 常见 
方法 。 


6.2 脚本 的 局 限 性 


第 一 次 部 署 基 于 Hadoop 的 应 用 时 ， 你 可 能 倾向 于 使 用 茶 种 脚本 语言 (如 Bash、Perl 或 
Python) 将 不 同 的 操作 结合 到 一 起 。 如 采 工 作 流 比较 短 而 且 不 太 重 要 ， 那 么 这 种 方法 是 可 
行 的 ， 而 且 实 施 起 来 通常 比 其 他 方法 更 简单 。 

Bash 脚本 通常 如 例 6-1 所 示 。 






















































































例 6-1 workflow.sh 
sqoop job -exec import_data 
if beeline -uU "jdbc:hive2://host2:10000/db" -f add_partition.hqL 2>&1 | grep FAIL 
then 
echo "Failed to add partition. Cannot continue." 
FE 


if beeline -u "jdbc:hive2://host2:10000/db" -f aggregate.hql 2>&1 | grep FAIL 
then 
echo "Failed to aggregate. Cannot continue." 
人 
sqoop job -exec export_data 


而 且 用 户 会 经 常 执行 该 脚本 ， 时 间 为 每 天 上 午 1 点 ， 使 用 的 crontab 项 如 例 6-2 中 所 示 。 


例 6-2 crontab 项 
0 1 * * * /path/to/my/workflow.sh > /var/Log/workfLow- `date +%y-%m-%d .Log 
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当 该 脚本 投入 生产 ， 有 人 依赖 脚本 的 结果 时 ， 就 会 有 其 他 需求 出 现 。 你 可 能 想 更 好 地 处 理 
错误 、 通 知 用 户 以 及 其 他 监控 工作 流 状 态 的 系统 、 追 踪 工 作 流 (不管 是 作为 整体 的 工作 流 
还 是 某 个 单一 操作 ) 的 执行 时 间 、 更 精细 化 地 处 理工 作 流 不 同步 又 之 间 的 逻辑 、 重 新 运行 
整个 工作 流 或 者 部 分 工作 流 ， 以 及 在 不 同 工 作 流 中 复 用 已 有 的 组 件 。 


在 产品 需求 不 断 升 级 的 情况 下 ， 维 持 一 个 内 部 自动 化 脚本 会 很 困难 ， 相 当 于 从 零 开 始 。 尽 管 
有 很 多 工具 具有 这 样 的 功能 ， 我 们 还 是 建议 熟悉 其 中 的 一 个 ， 以 此 满足 自动 化 流程 的 需求 。 


需要 明白 的 是 ， 迁 移 一 个 现存 的 工作 流 脚 本 使 之 能 够 在 一 个 工作 流 管理 器 中 运行 ， 这 种 操 
作 一 般 来 说 并 不 是 很 复杂 。 如 果 各 步 又 之 间 相对 独立 一 一 如 例 6-1， 每 个 步骤 都 使 用 前 一 
个 步骤 写 和 人 HDFS 中 的 文件 一 一 那么 转化 会 比较 简单 。 不 过 ， 如 果 脚 本 使 用 标准 输出 或 者 
本 地 文件 系统 在 不 同步 骤 之 间 传递 信息 ， 那 么 这 个 过 程 可 能 会 很 复杂 。 如 果 后 期 有 迁移 计 
划 ， 那 么 在 选择 使 用 脚本 中 创建 工作 流 ， 或 是 在 工作 流 管 理 嚣 中 创建 工作 流 的 时 候 ， 就 需 
要 慎重 考虑 以 上 因素 。 


6.3 企业 级 任务 调度 器 及 Hadoop 


很 多 公司 的 工作 流 自 动 化 和 调度 软件 都 有 一 个 内 部 统一 的 标准 框架 。 和 常见 的 选择 包括 
ControIM、UC4、Autosys 与 ActiveBatch。 使 用 现存 的 软件 调度 Hadoop 工作 流 是 一 个 比较 
合理 的 选择 。 这 样 可 以 保证 复 用 现 有 基础 设施 ， 而 且 不 需要 学 习 其 他 的 框架 。 不 仅 是 针对 
Hadoop， 将 多 种 系统 集成 到 同一 工作 流 时 ， 这 种 方法 总 会 使 集成 变 得 更 轻松 。 


一 般 来 说 ， 这 些 系 统 会 在 每 个 服务 器 上 安装 agent， 以 便 在 每 个 服务 器 中 执行 各 种 操作 。 
在 Hadoop 集群 中 ， 用 户 的 工具 与 应 用 JAR 包 通 常 在 边缘 节点 (edge node， 也 称 gateway 
node， 网 关节 点 ) 上 部 署 。 使 用 这 些 工具 设计 工作 流 时 ， 开 发 者 通常 会 指定 执行 操作 的 
服务 器 ， 然 后 指定 agent 在 服务 器 上 执行 的 查询 命令 。 例 6-1 中 的 命令 分 别 为 sqoop 与 
beeline。agent 将 执行 命令 ， 等 待命 令 的 完成 并 且 将 返回 状态 报告 给 工作 流 管理 器 。 设 计 
工作 流 时 ， 开 发 者 能 够 指定 规则 ， 即 如 何 处 理 每 个 任务 以 及 整个 工作 流 的 成 功 或 者 失败 。 
同一 个 企业 作业 调度 程序 也 能 用 于 调度 工作 流 ， 使 其 在 指定 的 时 间或 者 按照 指定 间隔 周期 


性 运行 。 




























































































这 些 企 业 工 作 流 自动 化 系统 并 不 是 针对 Hadoop 而 创建 的 ， 所 以 使 用 这 些 系 
统 的 详细 概述 不 在 本 书 的 讨论 范围 之 内 。 我 们 将 重点 介绍 属于 Hadoop 生态 
系统 的 框架 。 

















6.4 Hadoop 生 态 系统 中 的 工作 流 框架 


Hadoop 生态 系统 中 有 一 些 工作 流 引擎 。 这 些 引擎 紧密 集成 并 且 拥 有 内 部 支持 。 因 此 ， 对 
于 很 多 企业 来 说 ， 如 果 需 要 调度 Hadoop 工作 流 ， 却 没有 标准 的 自动 化 解决 方法 ， 那 么 可 
以 选择 其 中 一 个 工作 流 引 苟 用 于 工作 流 自动 化 与 调度 。 


对 于 分 布 式 系 统 ， 较 为 流行 的 开源 工作 流 包 括 Apache Oozie、Azkaban、Luigi 与 Chronos。 
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Oozie (http://oozie.apache.org/) 由 Yahool 创建 ， 旨 在 支持 其 逐渐 发 展 的 Hadoop 集群 以 
及 在 集群 上 不 断 增加 的 任务 与 工作 流 。 

Azkaban (http://azkaban.github.io/) 由 LinkedIn 创建 ， 目 的 是 对 工作 流 进行 可 视 化 的 便 
捷 管理 。 
Luigi (https://github.com/spotify/luigi) 是 一 种 来 自 Spotify 的 开源 Python 包 。Spotify 能 
够 帮助 用 户 自动 化 调度 长 期 运行 的 批 任务 ， 而且 内 置 支持 Hadoop。 

Chronos (http://mesos.github.io/chronos) 是 一 种 来 自 Airbnb 的 开源 分 布 式 调度 器 ， 能 够 
容错 ， 在 Mesos 框架 上 运行 。 这 是 一 种 用 于 替代 cron 定时 任务 的 分 布 式 系统 。 


























本 章 将 重点 放 在 Oozie 上 ， 展 示 如 何 使 用 Oozie 创建 工作 流 。 选 择 Oozie 的 原因 是 每 一 
个 Hadoop 发 行 版 都 包含 它 。 其 他 自动 化 流程 引擎 的 作用 相似 ， 但 是 在 语法 与 细节 上 有 
所 不 同 。 


选择 工作 流 引 擎 时 ， 需 要 考虑 以 下 因素 。 











安装 简便 程度 

工作 流 引 擎 是 否 足 够 容易 安装 ?版 本 升级 会 不 会 很 及 烦 ? 

社区 参与 和 认同 

在 生态 系统 中 ， 社 区 是 否 能 够 快速 对 有 前 景 的 新 项 目 增加 支持 ? 当 新 的 项 目 增加 到 生态 
系统 中 时 (如 ，Spark 是 目前 相当 流行 的 新 增 项 目 )， 用 户 希 望 工作 流 引 擎 能 够 支持 新 
的 项 目 ， 这 样 不 会 阻碍 用 户 在 工作 流 中 使 用 更 新 的 项 目 。 

用 户 接口 支持 

将 工作 流 创建 为 文件 还 是 通过 UI 访问 ? 如 果 是 文件 ， 创 建 和 更 新 这 些 文件 是 否 容易 ? 
如 果 是 UI 方 式 ，UI 有 多 强大 、 多 直观 ? 

测试 

在 工作 流 形成 后 ， 如 何 测 试 它们 ? 

日 志 

引擎 是 否 提供 方便 的 日 志 访 问 方 式 ? 

工作 流 管 理 

引擎 提供 的 管理 水 平 符合 你 的 期 望 吗 ? 引擎 能 够 跟踪 全 部 工作 度 或 部 分 工作 流 所 花费 的 
时 间 吗 ? 能 够 灵活 控制 操作 的 DAG (比如 基于 前 一 次 的 操作 输出 做 出 决策 ) 吗 ? 
错误 处 理 

如 果 出 现 错误 ， 你 能 通过 引擎 重新 运行 任务 或 任务 的 一 部 分 吗 ? 你 能 通知 用 户 吗 ? 















































6.5 Oozie 术 语 
深入 讨论 之 前 ， 我 们 先 看 一 下 Oozie 术语 。 


工作 流 操作 
自动 化 流程 引擎 能 够 执行 的 单一 任务 单元 (如 ， 一 次 Hive 查询 、 一 个 MapReduce 任 
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务 、 一 次 Sqoop 输出 ) 。 
。 工作 流 

一 个 操作 (或 任务 ) 的 控制 依赖 DAG。 
。 协调 器 

数据 集 与 数据 表 的 定义 ， 能 够 触发 工作 流 。 
。 bundle 

协调 器 的 集合 。 


6.6 Oozie 概 述 


Oozie 可 以 说 是 Hadoop 上 最 受 欢 迎 的 可 伸缩 分 布 式 工作 流 引擎 。 至 少 大 部 分 Hadoop 发 行 
版 都 装载 了 Oozie。Oozie 的 主要 优势 是 能 够 与 Hadoop 生态 系统 深入 集成 ， 而 且 能 够 处 理 
数 千 个 并 发 的 工作 流 。 
对 于 常用 的 Hadoop 生态 系统 组 件 (如 MapReduce、Hive、Sqoop 与 distcp)，Oozie 含有 多 
个 内 置 的 操作 。 因 此 ，Oozie 易于 创建 这 些 组 件 的 工作 流 。 另 外 ，Oozie 还 能 执行 任意 一 个 
Java 程序 与 shell 脚本 。 
我 们 在 这 里 简单 地 介绍 一 下 Oozie， 然 后 提出 使 用 Oozie 所 需要 考虑 的 因素 与 建议 。 
Oozie 的 主要 逻辑 组 件 如 下 所 述 。 
。 一 个 工作 流 引 党 

用 于 执行 工作 流 ， 包 括 各 种 操作 ， 如 Sqoop、Hive、Pig 与 Java。 
。 一 个 调度 器 ( 即 所 谓 的 协调 器 ) 

基于 频率 或 者 前 一 个 数据 集 位 置 中 已 存在 的 数据 集 调度 工作 流 。 
。 REST API 

包括 API， 用 来 执行 、 调 度 与 监控 工作 流 。 
。 命令 行 客 户 端 

调用 REST API， 并 且 能 够 让 用 户 通过 命令 行 执行 、 调 度 及 监控 任务 。 
































。 bundle 
即 协调 器 应 用 的 集合 ， 能 够 统一 控制 。 
。 提醒 





当 任 务 状态 发 生 改 变 时 〈 当 任务 开始 、 结 束 、 出 现 错误 或 者 转移 到 下 一 个 操作 ， 等 等 )， 
将 事件 发 送 到 外 部 JMS 队列 。 也 支持 外 部 应 用 与 工具 之 间 的 简单 集成 。 
。 SLA 监控 
根据 开始 时 间 、 结 束 时 间或 者 持续 时 间 追 踪 任务 的 SLA。 当 任务 符合 SLA， 或 无 法 保 
证 SLA 时 ，Oozie 会 通过 Web 指示 板 、REST API、JMS 队列 或 者 Email 通知 用 户 。 
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。 后 问 数 据 库 
存储 Oozie 的 持久 信息 ， 包 括 协调 器 、bundle、SLA 与 工作 流 的 历史 信息 。 该 数据 库 可 
以 是 MySQL、Postgres、Oracle 或 者 MSSQL 。 


Oozie 以 客户 端 -- 服 务 器 模型 工作 。 图 6-1 展示 了 Oozie 的 客户 端 - 服 务 器 架构 。 


























Hadoop 






Oozie 服 务 器 


工作 流 引擎 。 调度 器 


命令 行 或 REST 捷 














存储 有 工作 流 、bundle、 
调度 集合 的 细节 及 SLA 
内 容 














图 6-1: Oozie 架构 


执行 一 个 工作 流 时 ， 事 件 出 现 的 顺序 如 图 6-2 所 示 。 

















配置 


Shell 


SSH 


i Oozie JobTracker el 
全 人 服务 器 AARN RM 











6-2: 执行 工作 流 时 Oozie 中 事件 出 现 的 顺序 





协调 调度 | 149 


图 灵 社 区 会 员 largelove(largelove@163.com) 专 享 尊重 版 权 











如 图 6-2 所 示 ， 客 户 端 与 Oozie 服务 器 相连 接 ， 而 且 提 交 任 务 配 置 。 一 系列 的 键 值 对 确定 
了 任务 执行 的 重要 参数 ， 而 不 是 工作 流 本 身 进 行 确 定 。 工 作 流 包含 一 系列 操作 以 及 连接 这 
些 操 作 的 逻辑 ， 由 一 个 名 为 workflow.xml 的 文件 定义 。 任 务 配置 必须 包括 workflow.xml 文 
件 在 HDFS 上 的 位 置 ， 也 能 收录 其 他 参数 ， 通 常 包括 NameNode、JobTracker (如 果 使 用 
MapReduce v1 [MR1]) 或 者 YARN Resource Manager (如 果 使 用 MapReduce v2 [MR2]) 的 
URI 地 址 。 这 些 参数 随后 会 用 于 定义 工作 流 。Oozie 服务 器 接收 客户 端 提供 的 配置 时 ， 会 
读 取 workflow.xml 文件 与 来 自 HDFS 的 工作 流 定义 。 随 后 ，Oozie 服务 器 解析 工作 流 定义 ， 
并 启动 工作 流 文件 所 述 的 备 个 操作 。 



































为 什么 Oozie 服务 器 会 使 用 一 个 启动 器 


Oozie 服务 器 不 会 直接 执行 操作 。 对 于 任何 操作 ，Oozie 服务 器 只 通过 一 个 Map 任务 
(被 称 为 launcher 任务 ) 来 启动 MapReduce 任务 ， 然 后 启动 Pig 或 Hive 操作 。 这 一 架 
构 上 的 设计 使 Oozie 服务 器 更 轻 量 、 可 伸缩 性 更 好 。 


如 果 所 有 的 操作 都 由 一 个 单一 的 Oozie 服务 器 启动 、 监 控 及 管理 ， 那 么 所 有 的 客户 端 
库 都 必须 保存 在 这 个 服务 器 上 。 因 为 所 有 的 操作 都 通过 同一 个 节点 执行 ， 所 以 该 服务 
器 的 负担 会 变 得 很 重 ， 可 能 会 成 为 尊 颈 。 但 是 ， 单 一 的 启动 器 任务 能 够 使 Oozie 使 用 
已 存 的 分 布 式 MapReduce 框架 ， 委 托 启 动 器 任务 启动 、 监 控 与 管理 操作 ， 进 而 委托 局 
动 器 任务 运行 的 节点 执行 这 些 操作 。 该 启动 器 会 从 Oozie 的 sharedlib (HDFS 上 的 一 个 
目录 ， 包 含 不 同 Oozie 操作 所 要 求 的 所 有 客户 端 库 ) 中 提取 所 需 的 客户 篇 库 。 上 述 的 
例外 情况 是 文件 系统 、SSH 以 及 Email 相关 的 操作 ，Oozie 服务 器 直接 执行 这 些 操 作 。 


比如 ， 运 行 一 个 Sqoop 操作 ，Oozie 服务 器 将 启动 一 个 mapper MapReduce 任务 ， 称 作 
sqoop-launcher。 该 mapper 将 运行 Sqoop 客户 端 ， 而 后 依次 运行 其 自身 的 MapReduce 任 
务 〈 称 作 sqoop-action) 。 执 行 该 任务 配置 的 mapper 数量 与 Sqoop 的 相同 。 对 于 Java 或 
shell 操作 ， 局 动 器 将 执行 Java 或 shell 应 用 ， 而 且 不 会 产生 其 他 的 MapReduce 任务 。 











6.7 ”Oozie 工 作 流 


如 前 所 述 ， 工 作 流 在 Oozie 中 的 定义 被 写 信 了 XML 文件 ， 文件 名 称 为 workflow.xml。 一 
个 工作 流 包含 操作 市 点 和 控制 三 点。 操作 市 点 负责 运行 实际 操作 ， 而 控制 节点 控制 执行 
的 流程 。 控 制 节 点 能 够 启动 或 结束 一 个 工作 流 、 制 定 决策 、 拆 分 或 合并 执行 操作 ， 或 者 
终止 执行 任务 。workflow.xml 文件 代表 控制 节点 与 操作 节点 的 DAG， 用 XML 表述 。 关 
于 XML 文件 模式 描述 的 完整 讨论 不 在 本 书 范围 之 内 ， 你 可 以 参阅 Apache Oozie 官方 文档 
(https:/oozie.apache.org/docs/4.0.1/WorkflowFunctionalSpec.html#OozieWFSchema ) 。 
































Oozie 的 默认 网 络 接口 使 用 ExtJS。 但 是 ， 对 于 开源 UI 工具 Hue (http:// 
www.gethue.com，Hadoop 用 户 的 体验 )，Oozie 应 用 通常 使 用 UI 创建 或 设计 
Oozie 工作 流 。Hue 基于 UI 设计 的 工作 流产 生 workflow.xml 文件 。 
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Azkaban 


Azkaban 是 一 种 开源 自动 化 流程 引 来 自 LinkedIn。 与 Oozie 相同 ， 在 Azkaban 中 
也 能 编写 工作 流 并 且 调 度 工 作 流 (简称 flow)。Azkaban 与 Oozie 的 创建 初 吉 不同: 
Oozie 的 目标 是 在 一 个 非常 大 的 集群 上 管理 数 千 个 任务 ， 因 此 重点 在 于 可 伸缩 性 
Azkaban 的 主要 作用 与 重点 在 于 简洁 和 可 视 化 。 


Azkaban 提供 了 两 项 服务 与 一 个 后 端 数 据 库 。 服 务 包 括 Azkaban Web 服务 器 与 
Azkaban 执行 器 。 每 一 个 服务 项 目 都 能 在 不 同 的 主机 上 运行 。Azkaban Web 服务 器 不 
仅 是 一 种 Web UI， 也 是 调度 所 有 flow 的 主要 控制 器 ， 通 过 Azkaban 运行 。 它 主要 
负责 管理 、 调 度 与 监控 。Azkaban 执行 器 负责 在 Azkaban 中 执行 low。 目 前 Azkaban 
Web 服务 器 是 一 个 单一 故障 点 ， 同 时 支持 多 个 Azkaban 执行 器 ,提供 高 可 用 性 和 可 伸 
缩 性 。 








Azkaban Web 服务 器 与 Azkaban 执行 器 都 能 与 后 端的 MySQL 数据 库 会 话 ， 能 够 存储 
工作 流 集合 、 工作 流 的 调度 、 SLA、 工作 流 的 执行 状态 以 及 工作 流 的 历 实 ;, 


Azkaban 内 部 只 能 支持 运行 本 地 UNIX 命令 与 简单 的 Java 项 目 。 但 是 ，Azkaban 任务 
类 型 的 插件 很 容易 安装 ， 支 持 Hadoop、Hive 与 Pig 任务 。Azkaban Web 服务 器 包括 很 
多 其 他 有 用 的 插件 : 用 于 浏览 HDFS 目录 的 HDFS Browser (与 Hue 的 HDFS Browser 
相似 )、 通 过 安全 途径 与 Hadoop 集群 会 话 的 Security Manager、 为 任务 运行 提供 总 结 的 
Job Summary、 将 Pig 任务 可 视 化 的 Pig Visualizer， 以 及 用 于 创建 、 管 理 与 运行 报告 的 
Reportal 。 


图 6-3 为 Azkaban 的 架构 。 





Azkaban Web Azkaban 


服务 器 执行 服务 器 






HDFS 浏 览 
插件 


任务 类 型 


插件 























图 6-3，Azkaban 架构 


表 6-1 对 于 Oozie 和 Azkaban 的 比较 不 算 详细 ， 但 是 列 出 了 它们 之 间 的 差异 。 
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表 6-1: 比较 Oozie 与 Azkaban 

























































































标准 Oozie Azkaban 
工作 流 定 义 使 用 XML， 需 要 加 载 到 HDFS 中 使 用 简单 的 声明 .job 文件 。 需 要 通过 网 
络 接口 安装 并 加 载 
可 伸缩 性 生成 一 个 单一 的 、 仅 限于 Map 的 任务 , | 通过 一 个 单一 的 执行 器 生成 所 有 的 任务 ， 
称 为 Launcher， 用 于 管理 启动 的 任务 。| 可 能 会 引发 伸缩 性 相关 的 问题 
系统 的 可 伸缩 性 更 好 ， 但 是 在 调试 时 增 















































加 了 额外 的 间接 层次 
Hadoop 生 态 系 | 提供 了 很 好 的 支持 。 能 够 运行 MapReduce、| 支持 Java MapReduce、Pig、Hive 与 Volde- 
统 的 支持 Streaming MapReduce、Pig、Hive、|mortBuildAndPush (能 够 将 数据 输入 
Sqoop 与 Distcp actions Volde mort 键 值 存储 中 ) 任务 。 其 他 任 
务 需 要 按照 命令 任务 类 型 实施 
安全 性 与 Kerberos 集成 支持 Kerberos， 但 在 安全 的 Hadoop 集 


群 上 只 支持 旧版 本 的 MRI API 执 行 
MapReduce 任务 

工作 流 版 本 管理 | 通过 HDFS 符号 链接 提供 简单 的 工作 流 | 通过 网 络 UI 加 载 ， 提 供 版 本 化 工作 流 的 
版 本 化 明确 方法 

与 Hadoop 生态 | 支持 HDFS、S3 或 者 本 地 文件 系统 上 的 | 未 要 求 工作 流 存储 于 HDFS 上 ; 可 能 局 
系统 之 外 的 系统 | 工作 流 (尽管 不 推荐 本 地 文件 系统 )。 支 | 以 完全 用 于 Hadoop 之 外 的 系统 

集成 持 邮 件 、SSH、shell 等 操作 。 提 供 编写 
自 定义 操作 的 API 

工作 流 的 参数 化 | 支持 通过 变量 与 Expression Language | 工作 流 只 能 通过 变量 进行 参数 化 
(EL) 函数 对 工作 流 进行 参数 化 (如 
$s{wf:user()}) 




























































































工作 流 调度 支持 时 间 与 数据 触发 只 支持 时 间 触 发 

与 服务 器 之 间 的 | 支持 REST API、Java API 与 CLI, 拥有 | 拥有 较 好 的 网 络 接口 ， 能 够 对 网 络 服务 

交互 网 络 接 口 (内 置 、 通 过 Hue) 器 触发 工作 流 发 送 cURL 命令 ， 无 正式 
的 Java API 或 CLI 








:六 -二 下 
6.8 工作 流 范 = 
认识 了 常用 的 自动 化 流程 3 引擎， 下面 我 们 看 一 些 行业 中 常见 的 工作 流 范 式 。 


6.8.1 点 对 点 式 工作 流 

按 顺 序 执行 操作 时 经 常会 用 到 这 种 类 型 的 工作 流 ， 比 如 ， 如 果 你 想 使 用 Hive 执行 数据 集 
的 合并 操作 ， 而 且 在 成 功 后 使 用 Sqoop 将 其 输入 到 RDBMS 中 。 

在 Oozie 中 实施 时 ，workflow.xml 文件 如 下 所 示 : 


<workflow-app xmlns="uri:oozie:workflow:0.4" name="aggregate_and_load"> 
<global> 
<job-tracker>${jobTracker}</job-tracker> 
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<name-node>${nameNode}</name-node> 
</global> 


<start to="aggregate" /> 


<action name="aggregate"> 
<hive xmlns="uri:oozie:hive-action:0.5"> 
<job-xml>hive-site.xml</job-xml> 
<script>populate agg_table.sql</script> 
</hive> 
<ok to="sqoop-export" /> 
<error to="kill" /> 
</action> 


<action name="sqoop_export"> 
<Sqoop xmlns="uri:oozie:sqoop-action:0.4"> 
<arg>export</arg> 
<arg>--connect</arg> 


<arg>jdbc:oracle:thin:@//orahost:1521/oracle</arg> 


<arg>--username</arg> 
<arg>scott</arg> 
<arg>--password</arg> 
<arg>tiger</arg> 

<arg>- -table</arg> 
<arg>mytable</arg> 
<arg>- -export-dir</arg> 


<arg>/etl/BI/clickstream/aggregate-preferences/output</arg> 


</sqoop> 

<ok to="end" /> 

<error to="kill" /> 
</action> 


<kill name="kill"> 
<message> Workflow failed. Error message 
[${wf:errorMessage(wf:lastErrorNode())}]</message> 
</kill> 
<end name="end" /> 
</workfLow-app> 


整体 看 来 ， 该 工作 流 如 图 6-4 所 示 。 








操作 :聚合 














6-4: 点 对 点 式 工作 流 
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现在 来 深入 分 析 该 工作 流 中 的 每 一 个 XML 元 素 。 


。 global 元 素 包 含 所 有 操作 都 会 用 的 全 局 配置 ， 比 如 JobTracker 与 NameNode 的 URI。 
job-tracker 元 素 在 表意 上 稍 有 偏差 。Oozie 使 用 相同 的 参数 读 取 JobTracker URI (使 用 
MRI 时 ) 与 YARN ResourceManager URI (使 用 MR2 时 )。 

。 start 元 素 指 工作 流 中 第 一 个 运行 的 操作 。 每 个 操作 都 有 一 个 名 称 ， 而 根据 类 型 每 个 操 
作 都 有 一 组 参数 。 

。 第 一 个 action 元 素 用 来 运行 Hive 操作 。 该 元 素 获 取 了 Hive 配置 文件 与 HQL 脚本 的 位 
置 ， 而 后 执行 操作 。 记 住 ， 由 于 数据 处 理发 布 Hive 命令 的 过 程 启动 Map 任务 ， 能 够 在 
Hadoop 集群 的 任意 一 个 节点 上 运行 ， 所 以 Hive 配置 文件 与 HQL 脚本 需要 在 HDFS 中 
呈现 ， 由 此 才能 被 运行 Hive 脚本 的 节点 访问 。 在 这 个 例子 中 ， 脚 本 populate_agg_table. 
sql 通过 Hive 执行 聚合 操作 ， 而 且 将 聚合 的 结果 存储 到 HDFS 中 ， 具 体位 置 为 hdfs:// 
nameservicel/etVBIclickstreamy/aggregate-preferences/output。 

。 sqoop_export 操作 负责 运行 一 个 Sqoop 输出 任务 ， 将 聚合 的 结果 从 HDFS 输出 到 
RDBMS。 该 过 程 需要 通过 一 一 个 参数 列表 进行 ， 并 且 这 个 列表 与 从 命令 行 调用 Sqoop 时 
使 用 的 列表 相对 应 。 

。 另外 ， 每 个 操作 都 包含 接 下 来 的 方向 ， 无 论 操 作成 功 〈 到 达 工 作 流 中 下 一 个 操作 ， 或 者 

结束 )， 还 是 出 现 错误 (到 达 kill 节点 ， 基 于 最 后 一 个 出 现 错误 的 操作 产生 恰当 的 错误 
消息 ， 也 能 发 送 通 知 JMS 消息 或 者 邮件 )。 

。 注意 ， 每 个 操作 与 工作 流 本 身 都 有 一 个 茶 版 本 的 XML 模式 〈 如 xmLns="uri:oozie:sqoop- 
action:09.4")。 这 规定 了 XML 定义 中 可 获得 的 元 素 。 比 如 ，global 元 素 只 存在 于 
uri:oozie:workflow:9.4 及 更 高 版 本 。 如 果 使 用 一 个 旧版 本 的 XML 模式， 那么 你 需要 在 
每 个 操作 中 定义 jobTracker 与 nameNode 元 素 。 对 于 目前 可 用 的 Oozie 版 本 ， 我 们 建议 
使 用 可 获得 的 最 新 模式 。 


6.8.2 ” 扇 出 式 工 作 流 

当 工 作 流 中 多 个 操作 并 行 运 行 时 ， 最 常用 到 的 是 扁 出 式 工 作 流 模 式 ， 但 是 这 里 需要 前 面 所 

有 操作 都 完成 再 运行 后 一 个 操作 。 这 也 被 称 为 分 叉 汇 合 (fork-and-join) 模式 。 在 本 例 中 ， 

我 们 想 先 运行 一 些 初 始 的 统计 ， 然 后 再 运行 三 个 不 同 的 数据 查询 以 完成 数据 聚合 。 这 三 个 

， 查询 处 方 与 替换 药 、 去 诊所 看 病 以 及 化 验 结 能 够 并 行 运行 并 且 只 依赖 
经 完成 的 初始 统计 结果 。 完 成 三 个 数据 查询 之 后 ， 我 们 想 通 过 运行 另 一 个 Hive 查询 来 

1 0 结 报告 。 


以 下 为 Oozie 中 的 工作 流 定义 。 


<workflow-app name="build_ reports" xmlns="uyri:oozie:workflow:0.4"> 






































Ms 
























































<global> 
<job-tracker>${jobTracker}</job-tracker> 
<name-node>${nameNode}</name-node> 
<job-xml>${hiveSiteXML}</job-xml> 
</global> 


<start to="preliminary_statistics" /> 
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<action name="preliminary_statistics"> 
<hive xmlns="uri:oozie:hive-action:0.5"> 
<script>${scripts}/stats.hql</script> 
</hive> 
<ok to="fork_aggregates" /> 
<error to="kill" /> 
</action> 


<fork name="fork_aggregates"> 
<path start="prescriptions_and_refills" /> 
<path start="office visits" /> 
<path start="lab_results" /> 

</fork> 


<action name="prescriptions_and_refills"> 
<hive xmlns="uri:oozie:hive-action:0.5"> 
<script>${scripts}/refills.hql</script> 
</hive> 
<ok to="join_reports" /> 
<error to="kill" /> 
</action> 


<action name="office visits"> 
<hive xmlns="uri:oozie:hive-action:0.5"> 
<script>${scripts}/visits.hql</script> 
</hive> 
<ok to="join_reports" /> 
<error to="kill" /> 
</action> 


<action name="lab_results"> 
<hive xmlns="uri:oozie:hive-action:0.5"> 
<script>${scripts}/labs.hql</script> 
</hive> 
<ok to="join_reports" /> 
<error to="kill" /> 
</action> 


<join name="join_reports" to="summary_report" /> 


<action name="summary_report"> 
<hive xmlns="uri:oozie:hive-action:0.5"> 


<script>${scripts}/summary_report.hql</script> 


</hive> 

<ok to="end" /> 

<error to="kill" /> 
</action> 


<kill name="kill"> 
<message> Workflow failed. Error message 


[${wf:errorMessage(wf:lastErrorNode())}]</message> 


</kill> 
<end name="end" /> 


</workfLow-app> 


在 该 工作 流 中 ， 第 一 个 操作 preliminary_statistics 计算 初始 的 


统 


计 结 果 。 成 功 完成 这 
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一 步 后 ， 工 作 流 推进 至 fork 元 素 ， 随 后 三 个 操作 (prescriptions_and_refills、office_ 
visits 与 lab_results) 由 此 开始 并 行 运行 。 完 成 上 述 操 作 之 后 ， 控 制 (control) 进入 
join 元 素 。 先 前 三 个 Hive 操作 全 部 完成 之 后 ，join 元 素 才 会 启动 工作 流 。 注 意 ， 这 里 假 
设 合 并 之 后 的 操作 依赖 属于 fork 操作 的 结果 ， 所 以 只 要 有 一 个 操作 出 现 错误 ， 整 个 工作 流 
都 会 中 断 。 三 个 fork 操作 成 功 完 成 ， 控 制 进入 最 后 一 个 操作 ， 即 sunmary_report。 最 后 一 
个 操作 完成 时 ， 工 作 流 将 结束 。 


注意 ， 因 为 所 有 的 工作 流 都 使 用 相同 的 Hive 定义 ， 所 以 <job-xml> 只 定义 一 次 ， 具 体位 置 
为 <global> 部 分 。 


图 6-5 为 局 出 式 工 作 流 。 


































prescriptions and refills 


操作 :office_visits 有 
操作 :lab_results 






fork_aggregates 
join_reports 























图 6-5: 扇 出 式 工作 流 


6.8.3 分支 决 策 式 工作 流 


需要 基于 前 一 个 操作 的 结果 选择 下 一 个 操作 上 时， 我们 经 常 使 用 分 支 决策 式 工 作 流 ， 比 如 主 
类 com.hadooparchitecturebook.DataValidationRunner (用 于 验证 即将 存 和 人 Hadoop 的 数 
据 ) 中 含有 一 些 Java 代码 时 。 如 果 没 有 错误 的 话 ， 根 据 这 个 验证 ， 用 户 想 通 过 运行 主 类 
com.hadooparchitecturebook.ProcessDataRunner 来 外 理 此 数据 。 但 是 ， 如 果 出 现 错误 ， 用 
户 就 要 通过 运行 com.hadooparchitecturebook.MoveOutputToErrorsAction， 根 据 错 误 处 理 
代码 将 错误 信息 存 和 人 HDFS 上 不 同 的 目录 中 ， 并且 获得 目录 报告 。 

以 下 为 Oozie 中 实施 这 种 工作 流 的 workflow.xml 文件 : 


<workflow-app name="validation" xmlns="uri:oozie:workflow:0.4"> 



































<global> 
<job-tracker>${jobTracker}</job-tracker> 
<name-node>${nameNode}</name-node> 
</global> 


<start to="validate" /> 
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<action name='validate'> 
<java> 
<main-class>com.hadooparchitecturebook.DataValidationRunner 
</main-class> 
<arg>-Dinput.base.dir=${wf:conf('input.base.dir')}</arg> 
<arg>-Dvalidation.output.dir=${wf:conf('input.base.dir')}/dataset 
</arg> 
<capture-output /> 
</java> 
<ok to="check_for_validation errors" /> 
<error to="fail" /> 
</action> 


<decision name='check_for_validation errors'> 


<switch> 
<case to="validation failure"> 
$s{(wf:actionData("validate")["errors"] == "true")} 
</case> 
<default to="process_data" /> 
</switch> 
</decision> 


<action name='process_data'> 
<java> 
<main-class>com.hadooparchitecturebook.ProcessDataRunner</main-class> 
<arg>-Dinput.dir=${wf:conf('input.base.dir')}/dataset</arg> 
</java> 
<ok to="end" /> 
<error to="fail" /> 
</action> 


<action name="validation_ failure"> 
<java> 
<main-class>com.hadooparchitecturebook.MoveOutputToErrorsAction 
</main-class> 
<arg>${wf:conf('input.base.dir')}</arg> 
<arg>${wf:conf('errors.base.dir')}</arg> 
<capture-output /> 
</java> 
<ok to="validation fail" /> 
<error to="fail" /> 
</action> 


<kill name="validation_fail"> 
<message>Input validation failed. Please see error text in: 
$s{wf:actionData("validation_ failure")["errorDir"]} 
</message> 
</kill> 


<kill name="fail"> 
<message>Java failed, error message[${wf:errorMessage 
(wf:lastErrorNode())}]</message> 
</kill> 
<end name="end" /> 


</workfLow-app> 
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6-6 为 该 工作 流 的 一 个 总 体 概括 。 





process_data 





操作 :validate 











check_for_ 
validation__ 
errors 


操作 


validation_failure 杀 死 : 


validation 














6-6: 分 支 决策 式 工 作 流 


该 工作 流 中 ， 第 一 个 操作 为 validate， 运 行 了 一 个 Java 项 目 ， 用 来 验证 一 个 输入 数据 集 。 
根据 Oozie 配置 中 input.base.dir 参数 的 值 ， 其 他 一 些 参数 被 传送 到 Java 项 目 中 。 注 意 ， 
我 们 使 用 了 <capture-output /> 元 素来 获取 此 操作 的 选择 权 ， 随 后 又 会 用 在 下 一 个 决策 
点 ( 即 check_for_validation_errors) 上 。Java、SSH 与 shell 操作 都 支持 采集 输出 数据 。 
在 任何 一 种 情况 下 ， 输 出 数据 的 格式 都 为 Java 属性 的 文件 格式 (http://bit.ly.property-file)， 
每 行 包含 一 个 键 值 对 ， 行 之 间 由 换行 符 分 隔 。 对 于 shell 与 SSH 等 才 注 意 ， 输 出 数据 应 该 
写 入 标准 的 输出 (stdout)。 对 于 Java 操作 ， 应 该 收集 Properties 对 象 中 的 键 与 值 ， 而 且 
写 入 文件 中 。 该 文件 名 称 必 须 从 项 目的 oozie.action.output.properties 系统 变量 中 获取 。 


在 前 一 个 例子 中 ， 我 们 从 操作 的 输出 结果 中 检查 了 errors 属性 的 值 。 下 面 这 个 例子 展示 的 
是 如 何 为 Java 中 采集 的 输出 数据 编写 errors=false。 
File file = new FLLe(System.getProperty("oozie.action.output.properties")); 


Properties props = new Properties(); 
props.setPproperty("errors", "false"); 










































































OutputStream os = new FileOutputStream(file); 
props.store(os, ""); 
os.close(); 


然后 ， 决 策 节 点 通过 wf:actionData("_action_name_")["_key_"] 引用 采集 到 的 输出 数 
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据 。 其 中 action 的 名 称 为 action_name_， 而 属性 名 称 为 _key_。 而 后 决策 节点 包含 一 个 
switch 声明 ， 如 果 在 validate 操作 采集 到 的 输出 数据 中 errors 属性 设置 为 true， 或 者 设 
置 为 process_data 数据 操作 ， 控 制 就 会 引 向 validation_failure 节点 。 


process_data 操作 只 是 调用 了 另 一 个 Java 项 目 来 处 理 数据 ， 同 时 将 数据 集 的 位 置 当 作 属性 
传送 到 项 目 中 。 出 现 验 证 错误 时 ，validation_failure 操作 调用 另 一 个 Java 项 目 ， 并 传送 
两 个 参数 。 但 是 这 一 次 ， 参 数 作为 命令 行 自 变量 (command-line argument) 而 不 是 属性 传 
送 (注意 ， 此 处 缺少 -D <property=value> 语法 )。 用 户 期 待 本 项 目 能 够 将 验证 错误 相关 的 
信息 输入 到 目录 中 ， 并 使 用 capture-output 元 素 将 该 目录 的 名 称 返 还 到 工作 流 。 错 误 目 录 
的 名 称 作为 errorsDir 属性 被 传送 出 去 ， 并 被 下 一 个 操作 读 取 ， 即 validation_fail， 而 后 
将 目录 的 位 置 报告 给 用 户 。 


6.9 工作 流 参 数 化 


在 不 同 的 对 象 上 运行 相同 的 工作 流 也 是 一 种 时 常 出 现 的 需求 。 比 如 ， 如 果 工 作 流 使 用 
Sqoop 从 关系 型 数据 库 输出 一 个 表 ， 而 后 使 用 Hive 运行 一 些 数 据 验 证 ， 那 么 用 户 可 能 想 要 
在 不 同 的 表 上 使 用 同一 个 工作 流 。 这 种 情况 下 ， 用 户 会 想 将 表 的 名 称 设 定 为 一 个 参数 ， 并 
将 该 参数 传送 到 工作 流 中 。 还 有 一 种 经 常 使 用 参数 的 情况 发 生 在 指定 目录 名 称 与 数据 时 。 


Oozie 能 够 让 用 户 将 参数 指定 为 Oozie 工作 流 中 的 变量 或 者 协调 器 操作 ， 而 后 ， 在 调用 工 

作 流 或 者 协调 器 时 对 这 些 参数 设 定 值 。 除 了 能 够 在 需要 时 迅速 变更 值 而 且 不 需要 编写 代码 

以 外 ， 用 户 还 可 以 在 不 同 的 集群 (常见 的 包括 dev、test 与 production) 上 运行 相同 的 工作 

流 ， 并 且 不 用 重新 部 署 工作 流 。Oozie 工作 流 中 指定 的 任 一 参数 都 能 按照 以 下 任何 一 种 方 

式 进 行 设置 。 

。 用 户 能 够 在 config-defaults.xml 文件 中 设 定 属性 值 ， 供 Oozie 随后 获得 不 同 配置 属性 的 
的 默认 值 。 本 文件 在 HDFS 中 的 位 置 必须 在 执行 任务 的 workflow.xml 文件 后 面 。 

。 用 户 能 够 指定 job.properties 文件 中 或 者 Hadoop XML 配置 文件 中 这 些 参 数 的 值 ， 并 在 
启动 工作 流 时 使 用 -config 命令 行 选择 将 其 传送 出 去 。 但 是 ， 用 户 在 编辑 文件 时 可 能 会 
突然 做 出 一 些 改变 ， 而 且 不 同 用 户 使 用 的 需求 不 同 会 导致 同一 文件 会 使 用 多 次 ， 所 以 这 
种 方法 也 存在 一 些 风 险 。 

。 当 使 用 -D <property=value> 语法 调用 工作 流 或 者 协调 器 上 时， 用户 能 够 根据 命令 行 指 定 
这 些 参数 的 值 。 

。 从 协调 器 中 调用 工作 流 时 ， 用 户 能 够 传递 这 些 参数 。 

。 用 户 能 够 在 工作 流 定义 中 指定 一 列 必需 参数 (也 称 作 形 式 参 数 )。 本 列 参数 中 可 以 包含 
默认 参数 。 提 交 一 个 任务 时 ， 如 果 参 数 的 值 丢失 ， 那 么 任务 将 撤销 提交 。 用 户 能 够 在 工 
作 流 的 起 始 位 置 、 之 前 指定 该 列 参 数 。 

<parameters> 
<property> 
<name>inputDir</name> 
</property> 
<property> 


<name>outputDir</name> 
<value>out-dir</value> 
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</property> 
</parameters> 


然后 ， 这 些 参数 作为 $fjobTracker} 或 $fwf:conf('jobTracker')} 被 工作 流 访问 。 如 果 参 
数 名 称 不 是 Java 属性 (也 就 是 说 ， 不 仅仅 包含 [A-Za-z_][9-9A-Za-z_]*)， 那 么 就 只 能 由 
第 二 种 方法 访问 ， 即 $fwf:conf('property.name')}。 


另外 ， 我 们 已 经 看 到 在 一 个 工作 流 中 有 和 多少 操作 将 参数 传递 给 调用 的 代码 。shell 操作 可 能 
将 参数 传递 给 shell 命令 ，Hive 操作 可 能 会 获取 Hive 脚本 的 名 称 ， 并 将 其 作为 参数 或 者 用 
于 参数 化 Hive 查询 的 其 他 参数 。 而 Sqoop 操作 可 能 会 使 用 参数 使 Sqoop 输入 或 输出 数据 
参数 化 。 以 下 代码 将 一 个 参数 传递 给 一 个 Hive 操作 ， 然 后 在 查询 中 使 用 。 
<workflow-app name="cmd-param-demo" xmlns="uri:oozie:workflow:0.4"> 
<global> 
<job-tracker>${jobTracker}</job-tracker> 


<name-node>${nameNode}</name-node> 
</global> 



































<start to="hive-demo" /> 


<action name="hive-demo"> 
<hive xmlns="uri:oozie:hive-action:0.5"> 
<job-xml>${hiveSiteXML}</job-xml> 
<script>${dbScripts}/hive1.hql</script> 
<param>MYDATE=${MYDATE}</param> 
</hive> 
<ok to="end" /> 
<error to="kill" /> 
</action> 


<kill name="kill"> 
<message>Action failed, error message 
[${wf:errorMessage(wf:lastErrorNode())}]</message> 
</kill> 


<end name="end" /> 
</workfLow-app> 


在 这 个 工作 流 中 ， 参 数 ${MYDATE} 随后 作为 参数 MYDATE 传递 到 Hive 查询 。 然 后 该 Hive 查 
询 使 用 这 个 参数 ， 如 例 6-3 所 示 。 


例 6-3 hivel.hql 
INSERT INTO test SELECT * FROM test2 WHERE dt=${MYDATE} 


6.10 ”Classpath 定 义 


Oozie 操作 通常 为 Oozie 执行 的 小 型 Java 应 用 。 也 就 是 说 ， 执 行 操作 时 ， 你 必须 在 
Classpath 中 线 取 操作 的 依赖 关系 。Oozie 能 够 让 用 户 使 用 预定 义 操作 (该 位 置 被 称 为 
sharelib) 为 库 定义 一 个 共享 的 位 置 ， 所 以 能 够 处 理 一 些 依赖 关系 管理 的 问题 。 而 且 ， 
Oozie 也 为 开发 者 提供 了 多 种 方法 ， 根 据 不 同 的 应 用 将 不 同 的 库 增加 到 Classpath。 这 种 库 
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能 够 包含 用 于 Java 操作 的 依赖 关系 ， 或 者 用 于 Hive 操作 的 用 户 自 定义 函数 。 


以 下 章节 改编 自 Cloudera 博客 中 的 帖子 : How-to: Use the ShareLib in Apache 
Oozie (http://blog.cloudera.com/blog/2014/05/how-to-use-the-sharelib-in-apache- 
oozie-cdh-S/) 。 





所 有 的 Hadoop JAR 都 会 自动 包含 在 Classpath 中 ， 而 且 sharelib 目录 包含 用 于 内 置 操 作 的 
JAR (如 Hive、Pig、Sqoop， 等 等 )。 





sharelib 目录 通过 运行 oozie-setup sharelib create -fs HDFS:\\host:port 创建 。 如 果 想 
让 工作 流 使 用 shareLib， 在 job.properties 文件 指定 oozie.use.system.Libpath=true 即 可 。 
在 任务 中 ，Oozie 通过 一 些 必要 的 操作 将 JAR 包含 在 shareLib 中 。 


如 果 需 要 为 一 个 操作 增加 自 定 义 的 JAR (包括 用 于 MapReduce 或 Java 操作 的 JAR、JDBC 
驱动 器 ， 或 者 用 于 Sqoop 操作 的 连接 器 ) ， 可 以 采用 以 下 几 各 方法 。 


。 在 job.properties 中 设 定 oozie.Libpath=/path/to/jars,another/path/to/jars。 如 果 有 很 
多 工作 流 都 需要 同一 个 JAR， 那 么 这 种 方法 会 很 有 用 。 用 户 可 以 将 其 放置 在 HDFS 中 ， 
而 且 在 多 个 工作 流 中 使 用 。 工 作 流 中 所 有 的 操作 都 能 获得 该 JAR 包 。 

。 创建 一 个 名 称 为 lib 的 目录 ， 将 其 放置 在 HDFS 中 workflow.xml 文件 的 附近 ， 并 且 把 
JAR 放置 在 该 位 置 。 如 果 你 有 一 些 JAR， 但 是 只 有 一 个 工作 流 ， 这 种 方法 会 很 实用 。 

。 在 一 个 操作 中 指定 <archive> 标签 ， 并 且 路 径 指向 一 个 单一 的 JAR。 用 户 能 够 指定 多 个 
<archive> 标签 。 如 果 JAR 包 只 用 于 特定 的 操作 ， 而 不 是 工作 流 中 所 有 的 操作 ， 那 么 这 
种 方法 会 很 有 用 。 

。 将 JAR 增加 到 sharelib 目录 。 但 是 这 种 方法 一 般 不 予 推荐 原因 有 两 个 : 首先 ，JAR 会 
被 包含 到 每 一 个 工作 流 中 ， 因 此 会 导致 意外 的 结果 ， 第 二， 如 果 更 新 sharelib，JAR 将 
会 被 移 除 并 且 需 要 用 户 记 住 再 次 添加 。 


6.11 调度 模式 


我 们 已 经 知道 ， 不 同 的 操作 ， 以 及 操作 相关 的 决策 都 能 放 在 一 个 工作 流 中 ， 然 后 由 一 个 自 
动 化 流程 系统 运行 。 但 是 ， 工 作 流 在 事件 上 是 不 可 知 的 time-agnostic)， 也 就 是 说 ， 工 作 
流 本 身 没 有 何 时 或 如 何 运 行 的 概念 。 用 户 可 以 手动 运行 工作 流 ， 但 是 如 果 可 以 确定 预测 结 
果 是 真 的 ， 工 作 流 也 能 进行 调度 并 运行 。Oozie 利用 了 协调 器 ， 使 用 户 通过 一 个 XML 文件 
(或 者 通过 Hue Oozie UI) 来 调度 工作 流 ， 而 在 通过 Azkaban UI 执行 工作 流 时 ，Azkaban 
提供 了 调度 选择 。 

Oozie 的 情况 是 ， 协 调 器 在 名 称 为 coordinator.xml 的 文件 中 定义 为 XML 格式， 然后 传递 到 
Oozie 服务 器 中 用 于 提交 任务 。Oozie 协调 器 引擎 在 UTC 中 工作 ,但 是 对 于 协调 器 应 用 支 
持 不 同 的 时 区 以 及 夏令 时 (Daylight Saving Time，DST) 。 

尽管 Oozie 支持 相当 多 的 调度 使 用 案例 ， 但 目前 最 新 版 本 的 Azkaban 只 支持 第 一 个 被 称 为 
依 频 次 调度 (frequency scheduling) 的 使 用 案例 , 我 们 随后 将 对 其 讨论 。 
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6.11.1 依 频 次 调度 


依 频 次 调度 是 最 简单 的 调度 ， 能 够 使 用 户 周 期 性 地 执行 一 个 工作 流 。 比 如 ， 如 果 用 户 想 
每 60 分 钟 执行 一 个 工作 流 ， 进 行 每 小 时 的 数据 聚合 ， 那 么 可 以 使 用 如 下 Oozie coordinator. 
xml 文件 。 
<coordinator-app name="hourly-aggregation" frequency="${coord:minutes(60)" 
start="2014-01-19T08:00Z" end="2014-01-20T08:00Z" timezone="America/Los_Angeles" 
xmlns="Uyri:oozie:coordinator:0.4"> 
<action> 
<workflow> 
<app-path>hdfs://nameservice1/app/workfLows/hourLy-aggregation 
</app-path> 
</workfLow> 
</action> 
</coordinator-app> 


在 该 例 以 及 随后 一 个 例子 中 ， 结 尾 处 的 后 级 z 代表 时 间 惟 在 UTC 中 。 


前 面 的 协调 器 称 为 hourly-aggregation， 每 60 分钟 运行 一 次 hourly-aggregation 工作 流 
(frequency 属性 的 默认 单元 为 分 钟 )。 该 工作 流 第 一 次 的 运行 时 间 是 2014 年 1 月 19 日 上 
午 8 点 (UTC 时间)， 最 后 一 次 运行 时 间 为 2014 年 1 月 20 日 上 午 7 点 (UTC 时间)， 这 
是 结束 前 一 个 小 时 ， 结 束 时 未 运行 。 用 户 期 望 运 行 的 工作 流 定义 位 于 HDFS 目录 hdfs:/ 
nameservicel/app/workflows/hourly-aggregation 下 、 名 称 为 workflow.xml 的 文件 中 。 由 于 
start 与 endfield 正好 相差 一 天 ( 即 24 小 时 ) ， 所 以 这 个 工作 流 运行 了 24 次 。Oozie 也 支 
持 灵活 性 与 可 读 性 都 非常 好 的 cron。 


6.11.2 ”时 间或 数据 触发 式 

通常 ， 工 作 流 需 要 在 特定 时 间 运 行 ， 但 是 这 样 的 话 只 能 获得 数据 集中 一 个 特定 的 数据 集 
或 者 一 个 特定 的 分 区 。 如 果 存 在 一 个 特定 数据 集 或 者 分 区 ， 那 么 Oozie 协调 器 能 够 只 触发 
一 个 工作 流 。 如 果 不 存在 这 个 数据 集 ， 协 调 器 则 会 定期 检查 该 数据 集 是 否 存 在 ， 直 到 超 
出 特定 的 期 限 。 如 果 指 定 timeout=06， 而 且 数 据 不 存在 ， 那 么 协调 器 会 舍弃 该 工作 流 。 并 
且 ， 协调 器 不 会 再 次 检查 数据 是 否 存在 ， 直 到 整个 协调 器 被 按照 coordinator-app 中 所 列 
的 frequency 再 次 触发 。 默 认 的 超时 时 间 为 -1， 这 时 Oozie 服务 器 会 使 协调 器 处 于 队列 等 
侯 状 态 ， 直 所 有 的 要 求 得 到 满足 一 一 换 句 话说 ， 直 到 能 够 获取 要 求 的 数据 集 。 


我 们 假设 Hadoop 集群 与 Oozie 服务 器 都 在 加 利 福 尼 亚 。 比 如 你 想 每 天 从 凌晨 1 点 开始 ， 
按 小 时 收集 前 一 天 的 数据 。 如 果 上 游 问题 使 数据 集 延 迟 ， 你 只 想 在 数据 集 到 达 时 触发 工作 
流 。 在 Oozie 中 实现 这 种 协调 器 的 例子 如 下 所 示 。 


<coordinator-app name="hourly-aggregation" frequency="${coord:days(1)}" 
start="2014-01-19T09:00Z" end="2015-01-19T10:00Z" timezone="America/Los_Angeles" 
xmlns="Uuri:oozie:coordinator:0.1"> 

<dataset name="logs" frequency="${coord:days(1)}" 

initial-instance="2014-01-15T06:15Z" timezone="America/Los_Angeles"> 
<uri-template> 
hdfs://nameservice1/app/logs/${YEAR}${MONTH}/S${DAY} 
</uri-template> 
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<done-flag>_DONE</done-flag> 
</dataset> 
<input-events> 
<data-in name="input" dataset="Logs"> 
<instance>${coord:current(-1)}</instance> 
</data-in> 
</input-events> 
<action> 
<workflow> 
<app-path>hdfs://nameservice1/app/workflows/hourly-aggregation 
</app-path> 
</workflow> 
</action> 
</coordinator-app> 


从 太平 洋 时 间 的 2014 年 1 月 19 日 上 午 1 点 开始 (在 UTC 中 为 09:00)， 本 协调 器 每 天 都 
会 触发 。datasetfield 描述 了 在 工作 流 运行 之 前 需要 检查 的 数据 集 。 


尽管 协调 器 在 太平 洋 时 区 运行 ， 但 我 们 在 UTC 中 也 标记 了 开始 与 结束 时 间 。 
Oozie 在 UTC 中 执行 每 个 操作 ， 而 且 在 其 他 时 区 指定 开始 与 结束 时 间 会 导致 
提交 错误 。 计 算 频 率 时 ， 时 区 域 只 用 于 DST 值 。 
































frequency 标记 了 频率 ， 单位 为 分 钟 ， 此 时 数据 集 被 周期 性 写 入 。Oozie 使 用 这 种 方法 检 
查 数 据 集 过 往 运 行 第 n 次 的 情况 。 我 们 使 用 $fcoord:days(1)}， 而 没有 将 frequency 指 
定 为 1440 (一 天 的 分 钟 数 )。 原 因 在 于 当 DST 开始 或 结束 时 ， 一 天 的 分 钟 数 会 发 生变 
化 。initial-instancefield 指数 据 集 第 一 次 出 现 。 在 initial-instance 之 前 出 现 的 数据 

会 被 忽略 。HDFS 上 指向 数据 集 目 录 的 路 径 由 uri-templatefield 定义 。URI 将 分 解 为 /app/ 
logs/2014/06/19、/app/logs/2014/06/20， 等 等 。 尤 其 是 ， 协 调 器 将 查找 HDFS 目录 中 是 否 
存在 名 称 为 _DONE 的 文件 ， 以 确定 目录 是 否 准 备 好 处 理 数 据 。 本 文件 的 名 称 由 done- 
flagfield 提供 。 如 果 将 done-flag 设 定 为 一 个 空 字符 串 ，Oozie 将 自己 查找 是 否 存 在 目 
录 。URI 模板 中 使 用 的 YEAR、MONTH 与 DAY 变量 基于 UTC 中 的 实际 时 间 ， 如 果 有 和 需要， 
Oozie 会 自动 执行 会 话 。 如 果 协 调 器 应 用 首先 在 2014-01-19T09:00Z ( 即 ，UTC 时 间 2014 
年 1 月 19 日 上 午 9 点 ) 触发 ， 那 么 YEAR、MONTH 与 DAY 分 别 映射 为 2914、01 与 19。 注 
意 ， 这 也 是 协调 器 应 用 的 触发 时 间 (加 利 福 尼 亚 上 午 9 点 )， 但 不 一 定 是 工作 流 运行 的 时 
间 (可 能 需要 等 到 可 以 获得 输入 数据 )。 


为 uri-template 只 依赖 YEAR、NMONTH 与 DAY， 所 以 initial-instance (如 
96:15) 的 小 时 与 分 钟 部 分 并 不 重要 。 无 论 是 06:15 还 是 66:16， 都 会 映射 
到 同一 个 时 间 ， 而 且 第 一 次 运行 的 URI 相同 。 只 要 最 初 的 运行 时 间 映 射 到 
UTC 时 间 中 的 相同 的 URI (YEAR、MONTH、DATE 与 UTC 时 间 中 评估 的 相似 变 
量 )，initial-instance 的 小 时 与 分 钟 部 分 在 本 案例 中 并 不 重要 。 



































input-events field 定义 执行 工作 流 所 需要 的 输入 数据 。 在 这 个 例子 中 ， 我 们 将 日 志 数 据 设 
定 为 需要 的 输入 数据 。 我 们 也 指定 这 个 日 志 数据 集 所 需要 的 实例 。 此 时 ， 我 们 想 获取 一 天 
前 的 实例 ， 所 以 指定 $fcoord:current(-1)}。 这 个 标准 化 的 实例 会 被 转化 为 UTC， 而 后 用 
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来 


自动 化 地 填充 变量 YEAR、MONTH、DAY， 等 等 。 


由 于 先前 的 例子 没有 指定 timeout， 所 以 如 果 无 法 获取 数据 集 实例 ，Oozie 服务 器 将 无 限期 
等 待 ， 直 到 可 以 获得 数据 集 实例 运行 工作 流 。 这 种 情况 下 ， 为 协调 器 任务 设置 并 发 、 节 流 
与 执行 策略 非常 很 重要 。 并 发 《concurrency) 指 对 于 同一 个 任务 来 说 ， 有 多 少 个 实例 能 在 
任 一 给 定时 间 运 行 ， 其 默认 值 为 1。 古 流 指 同一 时 间 等 待 执 行 的 任务 数量 。 执 行 指 任务 中 
两 个 或 多 个 实例 在 排队 等 待 时 下 达 的 执行 命令 ， 默认 FIF0 (First In First Out， 先 进 先 出 ， 
即 最 先 触发 的 任务 最 先 执 行 )。 其 他 选择 包括 LIF0 (Last In First Out， 后 进 先 出 ， 即 最 后 触 
发 的 任务 最 先进 行 ) 与 LAST_ONLY (只 运行 最 后 触发 的 任务 )。 

如 果 工 作 流 仅 指 茶 天 某 个 时 间 的 数据 ， 那 么 多 个 任务 在 FIF0 命令 中 同时 运行 比较 适合 。 包 
含 这 类 设置 的 coordinator.xml 文件 如 下 所 示 。 


<coordinator-app ...> 

<controls> 
<timeout>1440</timeout> 
<execution>FIFO</execution> 
<concurrency>5</concurrency> 
<throttle>5</throttle> 

</controls> 

<dataset ....> 












































</coordinator-app> 


另外 ， 如 果 用 户 只 想 让 Oozie 服务 器 检查 是 否 可 以 获得 数据 集 ， 并 且 在 放弃 之 前 最 多 维持 
2 个 小 时 ， 那 么 可 以 将 timeout 设置 为 120 分 钟 。 


包含 这 类 设置 的 coordinator.xml 文件 如 下 所 示 。 








<Coordinator-app ...> 
<controls> 
<timeout>120</timeout> 
</controls> 
<dataset ....> 


</coordinator-app> 


如 果 用 户 根本 不 想 等 到 可 以 获得 数据 集 实 例 ， 也 就 是 说 数据 已 然 无 法 获得 ， 那 么 你 可 以 将 
timeout 设置 为 0。 由 此 ， 在 无 法 获得 数据 的 情况 下 ， 协 调 器 就 能 直接 退出 而 不 会 一 直 等 到 
超时 。 

同样 ， 你 也 可 能 通过 指定 一 个 以 上 的 数据 依赖 关系 依赖 多 个 数据 集 。 目 前 为 止 ， 我 们 一 直 
在 讨论 每 日 写 和 的 数据 集 。 现 在 让 我 们 来 看 一 个 每 小 时 写 入 数据 集 的 例子 。 如 果 按 照 每 小 
时 写 入 数据 集 ， 而 且 需 要 处 理 24 小 时 的 数据 才能 完成 最 后 一 个 小 时 的 任务 ， 那 么 用 户 可 
以 加 强 开始 与 结束 时 所 有 数据 集 实例 的 出 现 。 假 设 这 个 协调 器 在 每 小 时 的 第 10 分 钟 触发 ， 
那么 该 协调 器 任务 如 下 所 示 。 


<coordinator-app name="hourly-aggregation" frequency="${coord:hours(1)}" 
start="2014-01-19T09:10Z" end="2015-01-19T10:10Z"” timezone="America/Los_Angeles" 
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xmlns="uri:oozie:coordinator:0.1"> 


<input-events> 
<data-in name="coordInput1" dataset="input1"> 
<start-instance>${coord:current((coord:tzOffset()/60) - 24)} 
</start-instance> 
<end-instance>${coord:current(coord:tzOffset()/60) - 1}</end-instance> 
</data-in> 
</input-events> 


在 这 里 ， 我 们 使 用 ${coord:current((coord:tzoffset()/60) - 24)} 作为 开始 实例 。 我 们 暂 
时 不 用 看 -24 部 分 。 按 照 分 钟 来 算 ，coord:tzoffset() 导致 名 义 上 的 时 区 与 UTC 之 间 出 现 
偏差 。 按 照 小 时 来 算 ，coord:tzoffset()/66 同样 也 带 来 了 偏差 。 对 于 加 利 福 尼 亚 来 说 ， 这 
里 通常 在 正常 时 间 内 为 -8 而 在 DST 之 内 为 -7。 如 果 我 们 只 使 用 $fcoord:current()}， 那 
么 与 触发 时 间 2014-01-19T09:10z 相对 应 的 实例 为 YEAR=2014, MONTH=01, DAY=19, HOUR=09。 
但 是 ， 我 们 的 数据 集 是 在 太平 洋 时 区 内 产生 的 ， 既 然 加 利 福 尼 亚 的 时 间 才 到 上 午 1 点， 那 
么 实例 并 不 存在 。 为 了 获取 相关 实例 ， 我 们 不 得 不 考虑 时 区 偏差 ， 并 执行 ${coord:current 
(coord:tz0ffset()/60)}。 因 为 想 要 获取 包含 最 后 一 个 小 时 的 24 小 时 实例 , 我们 减 去 1,， 得 
到 最 后 的 实例 ， 而 减 去 24， 则 可 以 得 到 最 初 的 实例 。 要 注意 的 是 ， 先 前 的 例子 并 不 关心 时 
区 偏差 ， 原 因 在 于 我 们 的 数据 集 是 每 日 写 和 人 的。 从 技术 上 来 说 ， 我 们 在 那里 可 以 使 用 Sfco 
ord:current(coord:tzoffset()/1440) - 1} (1440， 按 照 每 日 写 入 数据 集 )， 而 不 是 只 使 
用 ${coord:current(-1)}。 但 我 们 从 地 理 课 上 学 过 ， 所 有 的 时 区 偏差 通常 都 小 于 1440 分 钟 
(24 小 时 ) ， 所 以 那个 值 会 一 直 为 0。 


用 户 可 能 需要 将 小 时 时 间 戳 传递 到 工作 流 ， 而 后 用 于 工作 流 。Oozie 提供 了 一 系列 用 于 协 
调 器 的 函数 ， 能 够 产生 并 格式 化 时 间 戳 ， 将 其 传递 给 工作 流 。 此 类 协调 器 如 下 所 示 。 


<coordinator-app name="hourly-aggregation" frequency="${coord:hours(1)}" 
start="2014-01-19T09:10Z" end="2015-01-19T10:10Z" timezone="America/Los_Angeles" 
xmlns="uri:oozie:coordinator:0.1"> 
<action> 
<workflow> 
<app-path>hdfs://nameservice1/app/workflows/hourly-aggregation 
</app-path> 
<configuration> 
<property> 
<name>dateHour</name> 
<value>${coord:formatTime(coord:nominalTime(),'yyMMdd_HH' )} 
</property> 
</configuration> 
</workflow> 
</action> 
</coordinator-app> 


当 协 调 器 在 UTC 中 被 触发 时 ，coord:nominalTime() 返回 对 应 的 时 间 。 这 种 情况 下 ， 工 作 
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之 
串 。 然 后 这 个 参数 会 用 于 聚合 操作 ， 一 如 6.9 节 中 所 示 的 参数 。 


Ah 一 
6.12 执行 工作 流 
如 果 想 要 执行 一 个 工作 流 或 者 协调 器 ， 那 么 你 需要 首先 把 XML 定义 放置 到 HDFS 中 。 同 
样 也 要 放置 工作 流 在 HDFS 中 所 依赖 的 所 有 JAR 包 或 文件 ， 如 6.10 节 中 所 述 。 接 下 来 要 
定义 一 个 属性 文件 ， 通 常 命名 为 job.properties。 这 个 文件 应 该 包含 所 有 你 想 在 工作 流 中 使 
用 的 参数 。 你 必须 指定 oozie.wf.appLication.path， 即 工作 流 定义 XML 文件 的 URL。 通 
常 为 $fnameNode}/user/$f{fuser.name}/myworkflow， 往 往 会 指定 以 下 的 内 容 。 
。 nameNode 


NameNode 的 URL， 应 该 与 hdfs://hadoop1:8026 相似 。 























。 jobTracker 


JobTracker 的 URL， 与 hadoop1:8021 相似 。 


另外 ， 如 果 工 作 流 包含 Hive、Pig 或 Sqoop 操作 ， 那 么 Oozie 会 要 求 访问 这 些 库 。 这 些 可 
能 已 经 作为 Oozie 安装 ( 指 Oozie sharelib) 的 一 部 分 包含 在 了 HDFS 中 ,但 是 用 户 需要 指 
定 想 要 使 用 的 部 分 ， 将 oozie.use.system.Libpath=true 增加 到 自己 的 属性 文件 中 ， 详 见 
6.10 节 。 


执行 协调 器 也 需要 包含 oozie.coord.appLication.path， 即 协调 器 定义 XML 的 URL ( 比 
如 ,，S${nameNode}/user/${user.name}/myworkflow/coord.xml)。, 


6.13 小结 


如 果 你 在 Hadoop 上 开发 应 用 ， 用 于 管理 多 种 操作 间 任 何 一 种 不 常见 的 依赖 关系 ， 那 么 你 
需要 一 个 工作 流 管理 系统 。 如 果 你 已 经 拥有 一 个 企业 自动 化 流程 引擎 ， 那 么 我 们 建议 你 开 
发 该 引擎 ， 使 其 能 够 支持 Hadoop。 你 可 以 随意 选择 ， 但 是 我 们 不 建议 对 任何 不 常见 的 关 
系 这 么 做 。 在 后 一 种 情况 下 ， 你 应 该 使 用 一 种 现存 的 引擎 ， 如 Oozie， 这 一 点 我 们 已 经 详 
细 讨 论 过 。 有 具体 如 何 选择 ， 需 要 参考 实际 的 使 用 情况 。 

如 果 你 的 大 多 数 自动 化 流程 位 于 Hadoop 中 间 ， 而 且 先 同 将 工作 流 与 协调 器 定义 放置 于 
HDFS 中 ， 那 么 Oozie 会 非常 实用 。 如 果 你 使 用 的 是 包含 Oozie 的 发 行 版 ， 则 更 是 如 此 。 
它 还 提供 安装 与 管理 支持 。 其 他 可 以 开发 的 开源 选择 包括 Azkaban、Luigi 与 Chronos。 
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第 7 章 
Hadoop 近 实时 处 理 





一 直 以 来 ，Hadoop 在 整个 开发 演进 的 过 程 中 都 扮演 着 批 处 理 系统 的 角色 。 最 常见 的 处 理 
范式 就 是 将 数据 加 载 至 Hadoop， 接 下 来 通过 批 处 理 任 务 (通常 采用 MapReduce 实现 ) 处 
理 数 据 。 这 类 处 理 的 常见 场景 是 抽取 一 转换 一 加 载 (Extract-Transform-Load，ETL ) 
理 流 水 线 一 一 将 数据 加 载 到 Hadoop 中 ， 按 照 某 种 方法 对 数据 进行 转化 操作 ， 以 符合 

的 需求 ， 而 后 将 数据 加 载 到 用 于 进一步 分 析 的 系统 中 (比如 关系 型 数据 库 )。 


Hadoop 高 效 并 行 处 理 海量 数据 的 功能 为 用 户 带 来 了 很 多 益处 。 但 是 有 些 情 况 对 于 数据 
处 理 有 着 更 高 的 实时 要 求 ， 更 准确 地 说 ， 应 该 是 近 实 时 要 求 ， 我 们 稍 后 会 简单 介绍 。 
要 在 数据 到 达 时 对 其 处 理 ， 而 不 是 批 处理 数 据 。 这 种 类 型 的 数据 处 理 通常 称 作 流 处 理 


( stream processing ) o 


幸运 的 是 ， 随 着 新 工具 集成 到 Hadoop 生态 系统 中 来 ， 这 种 近 实 时 数据 处 理 的 需求 也 有 了 
满足 的 办 法 。 这 些 流 数据 处 理工 具 包括 Apache Storm、Apache Spark Streaming、Apache 
Samza 等 系统 ， 甚 至 Apache Flume 通过 Flume 拦截 器 (Interceptor) 也 能 够 提供 支持 。 与 
MapReduce 之 类 的 批 数据 处 理 系统 不 同 ， 这 些 工具 能 够 让 用 户 创建 各 种 数据 处 理 流 程 ， 从 
而 处 理 持续 到 来 的 数据 。 这 些 流 程 只 要 在 运行 ， 就 会 一 直 进 行 数据 处 理 ， 而 批 数据 处 理 只 
能 在 固定 的 数据 集 上 操作 ， 两 者 正好 相反 。 这 种 类 型 的 系统 中 ， 在 Hadoop 上 应 用 最 广泛 
的 是 Storm 与 Spark Streaming， 本 章 将 讨论 这 两 种 系统 

下 面 ， 对 于 以 上 类 型 的 数据 处 理 ， 举 几 个 例子 。 

。 社交 媒体 消息 分 析 ， 例 如 : 在 某 个 社交 媒体 网 站 上 动态 探测 某 用 户 的 更 新 趋势 。 

。 财经 消息 分 析 ， 例 如 : 检测 某 用 户 账户 的 异常 活动 。 

。 视频 游戏 使 用 消息 分 析 , 例 如 :观察 用 户 行为 ,发 现 某 些 玩家 的 作 闪 行为 并 采取 防范 措施 。 
。 机 器 数据 消息 分 析 ， 例如; 应 用 日 志 中 出 现 异 常 或 错误 时 发 出 警报 。 
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Apache Kafka 之 类 的 工具 怎么 样 

Kafka 这 样 的 工具 在 近 实 时 数据 处 理 中 的 作用 可 能 令 人 困惑 。 实 际 上 ，Kafka 
是 一 种 分 布 式 消息 总 线 。 它 的 主要 用 途 是 在 架构 上 提供 可 靠 的 消息 传递 ， 以 
保证 事件 的 快速 消费 需求 。Kafka 是 一 种 强大 的 工具 ， 但 是 并 不 能 在 数据 传 
输 过 程 中 提供 数据 转换 、 报 警 或 者 计数 的 功能 。 

重要 的 一 点 是 ， 尽 管 Kafka 不 是 一 种 流 处 理 系统 ， 但 在 很 多 架构 中 ，Kafka 
经 常 是 涉及 流 处 理 时 的 关键 部 分 。 正 如 我 们 在 讨论 Storm 时 所 谈 到 的 ， 
Kafka 提供 的 数据 传输 保证 让 Kafka 本 身 成 为 了 与 Storm 互补 的 良好 选择 。 
在 将 事件 采集 到 Hadoop 中 时 ，Kafka 也 常 作为 整个 架构 的 一 部 分 。 

另 一 点 需要 注意 的 是 ， 尽 管 大 家 常 认为 Flume 是 一 种 采集 机 制 ， 但 我 们 也 可 
以 利用 Flume 拦截 器 的 功能 进行 事件 级 别 的 操作 。Flume 拦截 器 能 够 让 我 们 
执行 一 些 很 常见 的 流 处 理 活动 ， 如 数据 补充 与 验证 或 提醒 。7.5 节 将 进一步 
探讨 这 些 内 容 。 






















































































开始 之 前 ， 我 们 应 该 先 注 意 儿 个 词 。 第 一 个 词 是 实时 。 这 个 词 现 在 被 滥用 了 ， 而 且 通 常 定 
义 都 很 不 准确 。 为 了 更 好 地 进行 讨论 ， 我 们 在 本 章 提 到 的 数据 处 理 都 采用 更 为 准确 的 定 
义 ， 即 近 实 时 儿 秒 到 几 百 毫秒 之 内 进行 的 数据 处 理 。 如 果 你 的 应 用 要 求 数据 处 理 快 于 
5~100 上 毫秒， 那么 本 章 讨 论 的 工具 不 符合 你 的 需求 。 

另外 ， 本 章 不 会 讨论 以 下 内 容 : Cloudera Impala、Apache Drill 或 Presto 这 样 的 查询 引擎。 
NRT 上 下 文 经 常 谈 及 这 些 系 统 ， 但 是 它们 实际 上 进行 的 是 低 延 迟 的 大 规模 并 行 数据 处 理 
(Massively Parallel Processing，MPP)。 在 探究 Hadoop 上 的 数据 处 理 时 ， 第 3 章 曾 讨论 过 
这 些 查询 引擎 。 

图 7-1 展示 了 这 些 工 具 在 一 个 实时 上 下 文中 应 该 是 怎样 的 。 浅 灰色 的 格子 表示 本 章 将 要 讨 
论 的 系统 。 深 灰色 的 格子 表示 这 些 工具 按照 执行 时 间 排 列 的 先后 位 置 ， 只 是 本 章 并 没有 专 
门 提 到 。 

请 往 意 左边 标记 着 自 定 义 的 格子 。 尽 管 有 时 Storm 或 Flume 数据 处 理 的 速度 接近 或 快 于 50 
毫秒 ， 但 通常 来 说 达到 这 个 级 别 的 处 理 需 要 在 C/C++ 中 实现 自 定义 应 用 。 





















































本 章 涵盖 的 范围 




















~50ms >500 ms >30,000 ms >90,000 ms 











7-1: 近 实 时 处 理工 具 
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因为 HBase 通常 作为 流 处 理 的 持久 层 使 用 ， 而 且 在 决策 支持 或 者 数据 扩充 方面 能 够 提供 一 
些 功 能 性 的 帮助 ， 所 以 我 们 也 会 探讨 如 何 让 HBase 适用 于 NRT 架构 。 

我 们 首先 了 解 一 下 流 处 理 引 擎 Storm (以 及 相关 的 Trident 项 目 ) 与 Spark Streaming 的 概 
况 ， 随 后 比较 一 下 这 些 工 具 。 然 后 ， 我 们 将 讨论 用 户 什 么 时 候 可 能 会 想 要 使 用 流 处 理工 
具 ， 以 及 如 何 选择 工具 。 


7.1 流 处 理 


我 们 之 前 就 注意 到 了 ， 流 处 理 指 一 种 系统 ， 这 种 系统 能 够 不 断 地 持续 处 理 到 来 的 数据 ， 直 
到 应 用 停止 。 流 处 理 不 是 一 个 诫 新 的 概念 ， 早 在 Hadoop 出 现 之 前 ， 执 行 流 处 理 的 应 用 就 
已 经 存在 了 ， 包 括 商 业 项 目 ， 如 StreamBase， 以 及 类 似 于 Esper 的 开源 工具 。 更 新 型 的 工 
具 (如 Storm、Spark Streaming 与 Flume 拦截 器 ) 能 够 与 Hadoop 集成 到 一 起 ， 执 行 分 布 式 
的 流 处 理 。 
针对 这 些 数据 流 框架 ， 我 们 将 探讨 它们 如 何 处 理 以 下 常见 的 功能 。 很 多 NRT 使 用 场景 都 
需要 这 些 功能 。 
。 和 聚合 
即 计数 器 管理 功能 ， 经 典 的 单词 计数 就 是 一 个 简单 的 例子 。 计 数 器 在 很 多 情形 下 都 会 用 
到 ， 常 见 应 用 包括 报警 和 欺诈 检测 。 
。 窗口 平均 
在 给 定数 量 的 事件 或 者 给 定 的 时 间 窗 口 ， 计 算 一 个 平均 数 。 
。 记录 级 别 的 数据 扩充 
能 够 根据 规则 或 者 外 部 系统 (如 HBase) 的 内 容 ， 修 改 一 条 给 定 的 记录 。 
。 记录 级 别 的 报警 或 验证 
能 够 基于 系统 中 单个 事件 的 到 达 情 况 ， 进 行 报警 或 抛 出 警告 。 
。 临时 数据 的 持久 化 
在 数据 处 理 期 间 能 够 存储 状态 一 一 如 ， 通 过 计数 或 平均 数 持续 计算 结果 。 
。 支持 Lambda 架构 
Lambda 架构 这 个 概念 也 遭 到 了 滥用 。 我 们 在 下 文中 提供 了 更 完整 的 定义 。 简 单 来 说 ， 
我 们 认为 它 填补 了 不 精确 的 数据 流 结果 与 更 精确 的 批 数 据 计 算 之 间 的 鸿沟 。 
。 高 级 别 的 函数 功能 
支持 多 种 函数 ， 其 功能 包括 分 类 、 分 组 、 分 区 与 合并 数据 集 以 及 数据 集 的 子 集 。 



































































































































。 与 HDFS 集成 
与 HDFS 集成 的 简易 程度 与 成 熟 度 。 
。 与 HBase 集成 


与 HBase 集成 的 简易 程度 与 成 熟 度 。 
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Lambda 架构 


本 章 提 到 了 Lambda 架构 ， 下 面 我 们 简单 看 一 下 它 完 竟 是 什么 。Nathan Marz 与 James 
Warren 定义 了 Lambda 架构 ， 在 他 们 的 书 Big Data 中 有 详细 的 描述 。 这 是 一 种 常用 的 
框架 ， 用 于 可 伸缩 与 容错 的 海量 数据 处 理 。 


Lambda 架构 通过 将 架构 分 片 成 三 层 ， 为 实时 计算 任意 数据 的 任意 水 数 提供 了 可 能 。 





。 Batch 层 


这 一 层 存 储 了 数据 集 的 主 副本 。 这 个 主 数据 是 一 种 不 可 变 的 副本 ， 复 制 了 进入 系统 
的 原始 数据 。 批 量 层 也 对 Batch 视图 作出 预计 算 ， 这 也 是 对 数据 查询 的 基本 预计 算 。 


。 Serving 层 


该 层 索 引 、 加 载 Batch 视图 ， 并 将 其 用 于 低 廷 迟 的 查询 。 


。 Speed 层 


这 是 架构 中 基本 的 近 实 时 层 。 在 数据 到 达 系 统 时 ， 这 层 创 建 了 数据 视图 。 这 是 与 
本 章 联系 最 密切 的 层 ， 原 因 在 于 这 层 也 许 能 够 通过 流 数据 处 理 系 统 (如 Storm 或 
Spark Streaming) 实现 。 
新 数据 会 运送 到 Batch 层 与 Speed 层 。 在 Batch 层 中 ， 新 数据 会 添加 到 主 数据 集中 ; 而 
在 Speed 层 中 ， 新 数据 会 用 于 近 实 时 视图 的 增 量 更 新 。 在 查询 时 ， 来 自 两 个 层 的 数据 
会 被 合并 。 当 Batch 层 和 Serving 层 的 数据 均 可 用 时 ，Speed 层 的 数据 就 可 以 丢弃 了 。 


这 种 设计 提供 了 一 种 可 靠 的 、 容 错 的 方法 ， 能 用 于 要 求 低 延迟 数据 处 理 的 应 用 。Batch 


层 中 数据 的 权威 版 本 意味 着 ， 即 使 在 相对 不 那么 可 靠 的 Speed 层 中 出 现 错误 ， 系 统 状 








我 们 首先 大 致 了 解 一 下 Storm， 并 检查 它 对 于 流 处 理 系 统 标 准 的 符合 情况 。 讨 论 过 Storm 
之 后 ， 我 们 将 介绍 Trident。Trident 是 一 种 Storm 之 上 的 抽象 ， 提 供 了 高 一 层 的 功能 ， 也 通 
过 小 的 批 处 理化 加 强 了 Storm 的 核心 架构 。 

















7.2 Apache Storm 


Apache Storm 是 一 种 开源 系统 ， 用 于 流 数据 的 分 布 式 处 理 。Hadoop 用 户 会 觉得 Storm 的 很 
多 设计 原则 都 很 熟悉 。Storm 架构 的 创建 有 以 下 几 个 目的 。 


























开发 与 部 署 的 简易 性 

Hadoop 上 的 MapReduce 在 实现 分 布 式 批 数 据 处 理 时 减少 了 复杂 性 ， 与 此 相同 ，Storm 
减少 了 创建 数据 流 应 用 所 需要 的 任务 。Storm 使 用 简单 的 API 与 数量 有 限 的 抽象 来 实现 
工作 流 ， 易 于 配置 和 部 署 。 

可 伸缩 性 

与 Hadoop 相同 ，Storm 能 够 有 效 地 并 行 处 理 海 量 消息 ， 而 且 能 够 通过 添加 新 节点 简单 
地 进行 扩展 。 
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。 容错 
与 Hadoop 相同 ，Storm 在 架构 设计 上 允许 错误 的 发 生 。 与 Hadoop 任务 中 的 任务 相同 ， 
如 果 处 理 或 者 节点 出 现 错误 ，Storm 数据 处 理 是 可 以 多 次 启动 的 ， 而 且 任 务 失 败 时 将 自 
动 重启 。 但 是 需要 注意 ， 本 地 的 持久 值 (如 计数 与 滚动 平均 值 ) 不 支持 容错 。 这 类 容错 
需要 一 个 外 部 的 持久 化 系统 支持 。 我 们 随后 将 看 一 下 Trident 是 如 何 解 决 这 个 问题 的 。 
。 数据 处 理 保证 
Storm 保证 每 个 传 过 系统 的 消息 都 会 得 到 处 理 。 出 现 错误 时 ， 消 息 会 重新 发 送 ， 保 证 处 理 。 
。 广泛 的 项 目 语 言 支 持 
实现 工作 流 时 ，Storm 使 用 Apache Thrift 提供 了 语言 的 可 移植 性 。 
关于 Storm 的 完整 概述 不 在 本 书 的 范围 之 内 ， 所 以 我 们 会 把 重点 放 在 Storm 与 Hadoop 的 
集成 上 面 。 如 欲 了 解 更 多 ， 请 参阅 Storm 文档 (http://storm.apache.org/documentation/Home. 
html)。 想 在 实用 层面 了 解 Storm， 请 参阅 Sean T.Allen 等 编著 的 Storm 4pplied 。 






















































































Microbatch 与 Streaming 的 对 比 

我 们 暂且 停 下 ， 先 介绍 一 下 本 章 使 用 次 数 比 较 多 的 一 个 词 : Microbatch。Storm 是 纯 
数据 流 工具 ， 而 Spark Streaming 与 Trident 提供 了 一 个 Microbatch 模型 ， 能 够 简单 
地 将 事件 分 组 ， 使 其 成 为 离散 事务 性 的 批量 数据 ， 然 后 处 理 。 在 讨论 不 同 工 具 与 使 
用 案例 时 我 们 将 详细 讨论 这 个 概念 。 重 要 的 是 ， 这 里 需要 注意 ， 与 Streaming 相 比 ， 
Microbatch 未 ' 必 一 直 是 一 种 更 好 的 方法 。 设 计 架 构 时 需要 做 出 很 多 决策 ， 与 之 类 似 ， 
选择 Microbatch 还 是 Streaming 依赖 于 使 用 案例 的 具体 情况 。 在 降低 延迟 的 情况 下 ， 
Streaming 是 合适 的 选择 。 另 外 一 些 情况 下 ， 如 果 想 要 更 好 地 支持 只 进行 一 次 的 数据 处 
理 ， 那 么 更 应 该 选择 Microbatch 。 














7.2.1 _ Storm 高 级 架构 
图 7-2 为 Storm 架构 中 的 组 件 。 
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7-2: Storm 高 级 架构 





Hadoop 近 实时 处 理 | 171 
图 灵 社 区 会 员 largelove(largelove@163.com) 专 享 尊重 版 权 








如 图 7-2 所 示 ， 在 一 个 Storm 集群 中 存在 两 种 类 型 的 节点 。 











主 节点 运行 一 个 名 称 为 Nimbus 的 数据 处 理 。Nimbus 负责 在 集群 周围 分 配 节 点 ， 将 任务 
分 配给 机 器 并 监控 是 否 出 现 错误 。 你 可 以 认为 Nimbus 数据 处 理 与 MapReduce 框架 中 的 
JobTracker 相似 。 

Worker 节点 运行 Supervisor 后 台 程 序 。Supervisor 监听 并 服从 分 配给 该 节点 的 任 
务 ， 也 负责 启动 或 停止 Nimbus 分 配给 节点 的 数据 处 理 进 程 。 这 与 MapReduce 中 的 
TaskTrackers 相似 。 

另外 ，ZooKeeper 节点 能 够 协调 Storm 数据 处 理 任 务 ， 也 能 存储 集群 状态 。 在 
ZooKeeper 中 存储 集群 状态 能 够 使 Storm 数据 处 理 自身 无 状态 ， 支 持 Storm 数据 处 理 出 
现 错误 或 者 重启 ， 而 不 会 影响 集群 的 工作 。 注 意 ， 在 这 种 情况 下 ,“ 状 态 ” 指 集群 的 操 
作 状 态 ， 而 不 是 数据 在 集群 中 的 传输 状态 。 











上 下 






































7.2.2_ Storm 拓扑 


处 理 流 数 据 的 应 用 由 Storm 拓扑 实现 。 拓 扑 是 一 种 计算 图 ， 拓 > 扑 中 的 每 个 市 点 都 包含 数据 
处 理 逻 辑 。 市 点 之 间 的 联系 定义 了 数据 在 市 点 之 间 传 递 的 方式 。 


7-3 为 一 个 简单 的 Storm 拓扑 例子 ， 即 经 典 的 词汇 计数 。 如 表 中 所 示 ，sponut 与 bolt 是 
Storm 的 操作 原 语 ， 提 供 了 处 理 流 数据 的 逻辑 ， 而 spout 与 bolt 网 络 组 成 了 Storm 拓扑 。 
spout 提供 了 数据 流 的 来 源 ， 从 类 似 于 消息 列表 和 社交 媒体 消息 之 类 的 来 源 获 取 输 入 数据 。 
bolt 消耗 一 个 或 多 个 数据 流 (无 论 是 来 自 于 spout 还 是 bolt) ， 执 行 一 些 数据 处 理 ， 并 选择 
性 地 创建 新 的 数据 流 。 我 们 随后 会 进一步 讨论 spout 与 bolt。 


注意 ， 每 个 市 点 都 是 并 行 运行 ， 而 且 一 个 拓扑 的 并 行 化 程度 是 可 配置 的 。 一 个 Storm 拓扑 
将 一 直 运 行 下 去 ， 除 非 用 户 将 其 撤销 ， 而 且 Storm 会 自动 化 重启 失败 的 处 理 任务 。 
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7-3: Storm 单词 计数 拓扑 
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我 们 将 在 后 面 的 例子 中 详细 讲解 Storm 的 代码 。 以 下 就 是 图 7-3 中 启动 单词 计数 拓扑 用 到 
的 代码 。 

builder.setSpout("spout", new RandomSentenceSpout(), 2); 

builder.setBolt("split", new SplitSentence(), 4).shuffleGrouping("spout"); 


builder.setBolt("count", new WordCount(), 3). 
fieldsGrouping("split", new Fields("word")); 


我 们 很 快 就 将 看 到 ， 启 动 Storm 拓扑 的 程序 与 本 章 讨论 的 其 他 系统 [如 Trident ( 详 见 7.3 
节 ) 与 Spark Streaming 〈 详 见 7.4 节 ) ] 大 不 一 样 。 在 Storm 中 ， 创 建 一 个 拓扑 是 为 了 解决 
一 个 问题 。 在 Trident 与 Spark Streaming 中 ， 你 要 表达 的 是 如 何 解决 一 个 问题 ， 而 拓扑 在 
场景 之 后 创建 。 这 种 方法 与 Hive 在 MapReduce 上 提供 一 个 抽象 层 相似 。 


7.2.3 ”元 组 及 数据 流 

元 组 及 数据 流 为 通过 Storm 拓扑 流动 的 数据 提供 了 抽象 。 元 组 在 Storm 中 提供 了 数据 模型 。 
一 个 元 组 是 一 系列 有 序 、 有 名 称 的 值 ( 见 图 7-4)。 元 组 中 的 field 可 以 是 任何 一 种 类 型 的 。 
Storm 提供 了 初始 类 型 、 字 符 串 与 字 节 数组 。 用 户 可 以 通过 一 个 自 定 义 的 Serializer 使 用 其 
他 类 型 。 一 个 拓扑 中 的 每 个 节点 都 为 自己 产 出 的 元 组 声明 field。 























2014-07-11,34.95,35.56,34.78,35.43,18303700,35.43 
2014-07-10,34.33,34.97,34.10,34.93,18064800,34.93 


2014-07-09,34.68,35.07,34.68,34.85,12626900,34.85 














7-4: Storm 元 组 





数据 流 是 Storm 中 的 核心 抽象 。 在 一 个 拓扑 中 ， 一 个 数据 流 是 任何 两 个 习 点 之 间 的 无 约束 
元 组 序列 〈 见 图 7-5)。 一 个 拓扑 可 以 包含 任意 数量 的 数据 流 。 














2014-07-11,34.95,35.56,34.78,35.43,18303700,35.43 
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2014-07-10,34.33,34.97,34.10,34.93,18064800,34.93 
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2014-07-09,34.68,35.07,34.68,34.85,12626900,34.85 
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7-5: Storm 数据 流 


7.2.4 spout 和 bolt 


正如 我 们 先前 提 到 的 ，Storm 架构 中 另外 的 核心 组 件 是 spout 与 bolt， 它 们 在 Storm 拓扑 中 
提供 数据 处 理 。 
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spout 

如 前 所 述 ，spout 在 一 个 拓扑 中 提供 了 数据 流 的 来 源 。 如 果 你 对 Flume 比较 熟悉 ， 那 么 
你 可 以 将 spout 当 作 松散 的 Flume 数据 源 。spout 从 一 些 外 部 来 源 读 取 数据 ， 如 社交 媒 
体 信息 或 者 消息 队列 ， 并 将 一 个 或 多 个 数据 流 发 送 到 一 个 拓扑 中 处 理 。 

bolt 

在 一 个 拓扑 中 ，bolt 消耗 来 自 spout 或 上 游 bolt 的 数据 流 ， 在 数据 流 中 的 元 组 上 进行 
数据 处 理 ， 并 发 出 零 至 多 个 元 组 到 下 游 bolt 或 外 部 系统 ， 如 一 个 数据 持久 层 。 与 串联 
MapReduce 任务 相似 ， 复 杂 的 数据 处 理 通 常会 由 一 个 bolt 链 实现 。 












































值得 注意 的 是 ，bolt 在 每 个 时 间 点 处 理 一 个 单一 的 元 组 。 回 想 一 下 我 们 在 对 比 Microbatch 
与 Streaming 时 讨论 的 内 容 ， 在 不 同 的 使 用 情况 下 ， 这 种 设计 可 能 有 优势 ， 也 可 能 有 劣势 。 
我 们 随后 会 讨论 这 一 内 容 。 


7.2.5 ”数据 流 分 组 
在 一 个 拓扑 中 ， 数 据 流 分 组 确定 了 Storm 在 任务 集 之 间 发 送 元 组 的 方法 。Storm 提供 了 一 
些 分 组 方法 ， 你 也 可 以 实现 自 定义 的 数据 流 分 组 。 常 见 的 数据 流 分 组 方法 如 下 所 述 。 























Shuffle 分 组 

元 组 被 随机 发 送 到 一 个 bolt 实例 ， 同 时 保证 每 个 bolt 实例 都 将 接收 到 同样 数量 的 元 组 。 
能 够 独立 处 理 每 一 个 元 组 时 ， 适 合 选择 Shuffle 分 组 。 

field 分 组 
根据 元 组 中 的 一 个 或 多 个 field 控制 元 组 被 发 送 到 bolt 的 方式 。 对 于 给 定 的 一 组 值 ， 元 
组 总 会 发 送 到 同一 个 bolt。 与 MapReduce 数据 处 理 相 比 ， 这 种 方法 在 某 些 方面 与 分 区 
相似 ， 分 区 的 目的 是 采用 相同 的 键 将 值 发 送 到 相同 的 Reducer。 需 要 将 元 组 看 作 一 个 组 
时 (〈 比 如， 聚合 值 时 )， 可 以 使 用 field 分 组 。 值 得 注意 的 是 ， 对 于 MapReduce 来 说 不 
同 的 键 只 能 发 送 到 不 同 的 Reducer。 但 是 与 MapReduce 不 同 ， 使 用 Storm 时 ， 一 个 单一 
的 bolt 完全 可 以 接受 与 其 他 组 相关 的 元 组 。 

全 体 分 组 
对 于 所 有 参加 的 bolt， 复 制 数据 流 的 值 。 
全 局 分 组 
将 一 个 完整 的 数据 流 发 送 到 一 个 单一 bolt， 与 MapReduce 任务 类 似 (将 所 有 的 值 发 送 
到 一 个 单一 的 Reducer ) 。 













































































想 看 到 数据 流 分 组 的 完整 介绍 ， 请 参阅 Storm 文档 (http://storm.apache.org/documentation/ 
Concepts.html) 。 


数据 流 分 组 是 Storm 的 一 个 重要 特点 ， 而 且 与 定义 拓扑 的 能 力 组 合 到 了 一 起 。 正 因 如 此 ， 


与 Flume 系统 相 比 ，Storm 更 适合 计数 与 请 动 平 均等 任务 。Flume 能 够 接收 事件 并 执行 事 











件 增 强 与 验证 ， 但 是 不 包含 一 个 良好 的 系统 ， 无 法 对 那些 事件 分 组 ， 在 不 同 的 分 区 分 组 中 
处 理 。 注 意 ，Flume 具有 分 区 的 功能 ， 但 是 需要 在 物理 层次 上 定义 ， 同 样 的 情况 Storm 要 


在 逻辑 拓扑 层次 上 进行 定义 ， 这 样 更 为 易于 管理 。 
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7.2.6 ” ”Storm 应 用 的 可 靠 性 


Storm 在 处 理 元 组 时 提供 了 不 同 程度 的 保证 。 虽 然 程度 不 同 ， 但 实现 的 复杂 度 并 设 有 增加 

太 多 。 以 下 为 不 同 的 保证 程度 。 

。 至 多 处 理 一 次 
这 是 最 简单 的 实现 ， 而 且 适 合用 在 可 以 接受 消息 丢失 的 应 用 上 。 使 用 这 种 水 平 的 处 理 
时 ， 我 们 保证 了 一 个 元 组 被 处 理 的 次 数 永远 都 不 会 超过 一 次 ， 但 是 如 果 处 理 过 程 中 出 现 
了 问题 ， 元 组 可 能 没 经 过 处 理 就 被 舍弃 。 比 如 ， 出 于 提醒 的 目的 ， 到 达 的 事件 要 执行 一 


些 简 单 的 聚合 。 




































































。 至 少 处 理 一 次 
这 个 水 平 保证 每 个 元 组 至 少 成 功 处 理 一 次 ， 但 是 也 可 以 接受 元 组 被 延迟 而 且 被 处 理 多 
次 。 比 如 ， 如 果 在 确定 元 组 处 理 之 前 任务 崩 涡 ，Storm 重新 处 理 元 组 ， 那 么 元 组 可 能 会 
被 重复 处 理 。 增 加 这 种 保证 水 平 只 需要 在 代码 中 增加 实现 拓扑 的 内 容 ， 补 充 的 代码 相对 
较 少 。 举 一 个 符合 这 种 情况 的 例子 : 有 一 个 处 理 信 用 卡 的 系统 要 确保 在 出 现 错误 时 重新 
获得 授权 。 
。 仅 处 理 一 次 
这 是 最 复杂 的 一 个 保证 方式 ， 元 组 需要 处 理 一 次 ， 而 且 只 能 是 一 次 。 这 种 保证 水 平 能 
于 要 求 需 等 性 处 理 的 应 用 换 句 话说， 处 理 同一 个 元 组 的 组 总 是 需要 得 到 相同 的 结 
果 。 注 意 ， 这 种 保证 水 平 可 能 会 影响 核心 Storm 之 上 的 其 他 抽象 ， 比 如 Trident。 因 为 
这 需要 特定 的 处 理 ， 我 们 将 在 7.2.7 节 进 一 步 讨论 只 处 理 一 次 要 求 的 内 容 。 
注意 ， 有 了 可 靠 的 消息 来 源 ， 消 息 处 理 功 能 才能 得 到 保证 。 也 就 是 说 ， 如 果 元 组 处 理 过 程 
中 出 现 错误 ， 一 个 Storm 拓扑 的 spout 与 消息 来 源 需要 有 能 力 重 新 发 送 消 息 。Kafka 经 常 与 
Storm 一 起 使 用 ， 原 因 是 在 出 现 错误 时 它 能 够 让 spout 请 求 再 次 发 送 消 息 。 


7.2.7_” 仅 处 理 一 次 机 制 
在 要 求 仅 处 理 一 次 时 ，Storm 提供 了 两 个 选择 。 
。 事务 性 拓扑 


在 一 个 事务 性 拓扑 (transactional topology，http:/storm.apache.org/releases/current/ 
Transactional-topologies.html) 中 ， 元 组 处 理 基 本 上 被 分 成 两 个 阶段 。 
。 处 理 阶段 ， 并 行 处 理 批 元 组 。 
。 提交 阶段 ， 保 证 按照 严格 的 顺序 提交 批 次 。 
这 两 个 阶段 包含 一 个 交易 ， 能 够 并 行 批 处 理 ， 保 证 批 次 提交 并 在 需要 时 重新 发 送 。 最 近 几 
个 版 本 的 Storm 都 弃 用 了 事务 性 拓扑 ， 而 是 使 用 Trident， 我 们 随后 会 进行 介绍 。 
。 Trident 


与 事务 性 拓扑 相似 ，Trident (http://storm.apache.org/releases/current/Trident-tutorial.htm]l) 
是 Storm 上 的 一 种 高 水 平 抽象 ， 提 供 了 多 种 优势 。 
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。 Trident 提供 熟悉 的 查询 操作 符 ， 如 合并 、 聚 合 、 分 组 、 国 数 等 。 使 用 Pig 的 开发 者 
会 十 分 熟悉 项 目 模型 。 
。 重要 的 一 点 是 ，Trident 支持 仅 处 理 一 次 语义 。 
正如 你 所 注意 到 的 ， 目 前 Trident 更 为 适合 实现 仅 处 理 一 次 的 情况 。 由 于 Trident 的 代码 与 
执行 操作 与 Storm 相差 很 大 ， 所 以 本 章 中 后 面 的 内 容 会 仔细 地 梳理 Trident。 对 于 项 目 模 
型 ，Trident 与 Spark Streaming 非常 相似 ， 我 们 随后 也 会 看 到 。 


7.2.8 ”容错 性 


除了 能 够 保证 元 组 处 理 ，Storm 也 能 在 处 理 过 程 出 现 偶然 情况 或 硬件 出 现 错 误 时 (http:// 

storm.apache.org/releases/current/Fault-tolerance.html) 保证 处 理 。Hadoop 用 户 会 非常 熟悉 以 

下 功能 。 

。 如 果 Worker 停止 ，Supervisor 处 理会 将 其 重启 。 持 续 出 现 错误 上 时， 任务 会 转移 到 男 一 
台 机 器 。 

。 如 果 服 务 器 停止 ,分 配给 那个 主机 的 任务 会 超时 ， 因 而 会 重新 分 配给 其 他 主机 。 

。 停止 的 Nimbus 与 Supervisor 处 理 可 以 重新 启动 , 而且 不 会 影响 Storm 集群 上 的 数据 处 理 。 
另外 ， 如 果 Nimbus 处 理 速 度 降低 ，Worker 能 够 继续 处 理 。 







































































































































































7.2.9 ”Storm 与 HDFS 和 集成 


之 前 我 们 就 注意 到 ，Storm 实际 上 是 单独 的 数据 处 理 系统 ， 但 是 很 容易 与 外 部 系统 ， 以 

及 数据 来 源 和 数据 Sink 集成 。 现 在 Storm 项 目 中 包含 一 种 HDFS bolt (https://github.com/ 

apache/storm/tree/master/external/storm-hdfs)， 能 够 将 文本 与 序列 文件 写 入 HDFS。 但 是 也 

应 该 注意 ， 该 bolt 与 Hadoop 的 集成 相对 基础 ， 不 能 像 Flume HDFS Sink (https://flume. 

apache.org/FlumeUserGuide.html#hdfs-sink) 那样 支持 更 加 丰富 的 功能 。 

在 架构 中 使 用 HDFS bolt 需要 注意 以 下 几 点 。 

。 在 写 入 时 , HDFS bolt 的 实现 支持 一 次 写 入 一 个 元 组 ， 同 时 能 够 根据 处 理 的 元 组 数量 指 
定 同步 文件 输入 到 HDFS 中 的 频率 。 但 是 ， 这 种 方法 可 能 会 带 来 数据 丢失 ， 比 如 ， 在 获 
取 元 组 之 后 ，bolt 就 停止 了 ， 但 此 时 还 没有 同步 到 HDFS 。 

。 同样 也 是 在 写 入 时 ，HDFS bolt 不 支持 纯 文本 或 者 序列 文件 之 外 的 格式 (如 Avro)。 

值得 注意 的 是 ， 这 些 并 不 是 Storm 框架 本 身 的 限制 ， 随 着 HDFS 集成 的 不 断 发 展 ， 问 题 很 

可 能 会 得 到 解决 。 









































7.2.10 Storm 与 HBase 集 成 


我 们 讨论 了 Storm 与 HDFS 集成 时 需要 考虑 的 问题 ， 这 些 问题 同样 适用 于 Storm 与 HBase 
(https://github.com/ptgoetz/storm-hbase) 的 集成 。 对 于 HDFS bolt， 你 需要 阅读 相关 文档 并 
检查 对 应 的 代码 ， 确 保 以 批量 写 和 的 方式 将 数据 写 和 人 HBase 中 ， 而 不 是 一 条 数据 一 个 put。 
单条 put 操作 每 执行 一 次 ，WAL (Write-Ahead Log) 日 志 都 会 同步 写 到 HDFS 中 三 个 不 同 
节点 的 磁盘 上 。 这 样 会 对 HBase 写 人 造成 很 大 的 性 能 影响 。 表 7-1 为 在 一 个 小 的 测试 集群 


下 
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上 简单 测试 的 性 能 。 这 些 结果 与 你 期 望 在 生产 集群 上 看 到 的 并 不 完全 相同 ， 但 是 能 够 简单 
地 表现 不 同 批量 写 入 大 小 的 相对 性 能 影响 。 


表 7-1: 不 同 批量 写 入 的 相对 性 能 


















































集群 类 型 键 的 字 节 数 | 值 的 字 节 数 每 秒 的 Put 次 数 

3 节点 低 功 耗 虚拟 机 |32 1024 3180 

3 节点 低 功 耗 虚拟 机 |32 1024 5820 

3 节点 低 功 耗 虚拟 机 |32 1024 38 400 

3 节点 低 功 耗 虚拟 机 |32 1024 120 000 

4 节点 实体 机 32 1024 28 533 

4 节点 实体 机 32 1024 389 385 

回顾 Microbatch 与 Streaming 的 对 比 ， 这 是 一 个 很 好 的 使 用 案例 ，Microbatch 有 效 利用 了 





HBase 吞吐 量 。 


7.2.11 _ Storm 示例 : 简单 移动 平均 


在 评估 Storm 之 前 ， 我 们 先 来 看 一 个 例子 一 一 即 一 个 小 的 应 用 ， 计 算 股 票 报 价 记 录 的 简单 
移动 平均 (Simple Moving Average，SMA)。 我 们 计算 了 数据 流 中 最 后 和 N 个 值 的 平均 值 ， 
进而 实现 了 一 个 SMA， 在 这 里 和 是 一 个 特定 的 周期 一 一 计算 某 值 在 特定 窗口 的 平均 值 。 


本 例 给 定 一 个 股票 价格 的 数据 流 ， 而 且 窗 口 大 小 为 3， 输 入 与 输出 如 下 所 示 。 














Next vaLue = 33.79, SMA = 33.79 
Next vaLue = 35.61, SMA = 34.7 
Next value = 35.70, SMA = 35.03 
Next value = 35.43, SMA = 35.58 
Next value = 34.93, SMA = 35.35 
Next value = 34.85, SMA = 35.07 


Next value 
窗口 大 小 为 3 时 ,通常 计算 数据 流 中 最 后 3 个 值 的 平均 ， 爹 弃 所 有 的 前 面 的 值 。 主 要 因为 
到 达 的 包含 值 的 数据 流 是 移动 的 窗口 ， 所 以 这 里 提 到 的 是 移动 平均 (moving average)。 

我 们 在 案例 中 使 用 了 股票 价格 数据 ， 格 式 如 下 。 


stock symbol, date, opening price, daily high, daily low, closing price, volume, 
adjusted close 


我 们 将 把 收盘 价格 作为 SMA 计算 的 值 。 为 了 做 到 简洁 ， 数 据 处 理 的 结果 记录 将 包含 在 以 
下 field 中 。 
ticker, SMA 


除了 计算 移动 平均 ， 本 例 还 使 用 了 HDFS bolt 将 原始 记录 永久 性 地 保存 在 HDFS 中 ， 提 供 
了 一 个 Storm 拓扑 与 Hadoop 的 集成 示例 。 本 例 实现 的 拓扑 如 图 7-6 所 示 。 


34.53, SMA = 34.77 
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7-6: Storm 简单 移动 平均 拓扑 


我 们 来 看 一 下 图 中 的 步骤 。 


(1) 元 数据 为 每 天 的 股票 价格 记录 。 为 了 便于 演示 ， 这 里 假设 从 本 地 磁盘 上 的 一 个 文件 中 读 
取 记 录 。 实 际 应 用 中 ， 记 录 一 般 来 自 可 靠 的 事件 来 源 ， 如 消息 队列 、Kafka 或 Flume。 

(2) 股票 价格 记录 将 会 通过 Storm spout 发 送 到 拓扑 中 。 

(3) spout 会 把 元 组 发 送 到 两 个 不 同 的 bolt: 一 个 HDFS bolt 实例 会 将 原始 记录 永久 性 地 存 
储 到 HDFS 中 ， 一 个 解析 field 的 bolt 需要 计算 移动 平均 。 

(4) 来 自 解析 bolt 的 输出 元 组 会 传输 到 将 要 计算 移动 平均 的 bolt。 


我 们 看 一 下 实现 这 个 案例 所 需要 的 代码 。 
首先 看 一 下 StockTicksspout， 它 为 理解 拓扑 提供 了 一 个 切入 点 。 为 了 方便 演示 ， 我 们 将 
StockTicksSpout 定 为 一 个 简单 的 spout 实现 ， 只 从 本 地 文件 读 取 数 据 。 


public class StockTicksSpout extends BaseRichSpout { 
private SpoutOutputCollector outputCollector; 
private List<String> ticks; 





























@Override 

public void declareOutputFields(OutputFieldsDeclarer outputFieldsDeclarer) { 
outputFieldsDeclarer .declare(new Fields("tick")); © 

} 


@Override 
public void open(Map map, 
TopologyContext context, 
SpoutOutputCollector outputCollector) { 
this.outputCollector = outputCollector; 


try { 
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ticks = 

IOUtils.readLines(ClassLoader .getSystemResourceAsStream( 
"NASDAQ_daily_prices_A.csv"), 
Charset.defaultCharset().name()); 

} catch (IOException e) { 
throw new RuntimeException(e); 

} 

} 


@Override 
public void nextTuple() { 
for (String tick : ticks) { 
outputCollector .emit(new Values(tick), tick); © 
} 
} 
} 


© 


@ 对 于 该 spout 发 送 的 元 组 ， 定 义 field 名 称 。 这 时 我 们 将 每 个 输入 记录 都 作为 元 组 发 送 ， 


名 称 为 tick。 
@ 将 文件 中 的 每 个 记录 都 读 取 到 List 对 象 中 。 








四 当 Storm 准备 好 读 取 下 一 个 元 组 时 ，nextTuple() 方法 将 被 调用 。 也 要 注意 ， 在 emit() 


方法 中 ， 我 们 给 发 送 的 每 个 元 组 都 分 配 了 一 个 消息 太 ， 因此 明确 地 固 





定 了 每 








这 种 情况 下 ， 我 们 简单 地 将 元 组 本 身 当 作 ID。 执 行 这 种 固定 操作 使 

















` 游 组 人 





一 个 元 组 。 
F 能 够 获知 





每 个 元 组 的 处 理 ， 从 而 保证 了 可 靠 性 。 我 们 将 会 在 随后 的 bolt 代码 案例 中 再 看 一 下 这 种 

确认 操作 (http://storm.apache.org/documentation/Guaranteeing-message-processing.htm]l) 。 
如 图 7-6 所 示 ， 元 组 将 发 送 到 两 个 不 同 的 bolt 进行 处 理 : ParseTicksBolt 将 从 到 达 的 元 组 
中 解析 需要 的 field，HDFS bolt 将 到 达 的 元 组 持久 性 地 存储 到 HDFS 中 。ParseTicksBolt 











类 如 下 所 示 。 


public class ParseTicksBolt extends BaseRichBolt { 
private OutputCollector outputCollector; 


@Override 
public void prepare(Map config, 
TopologyContext topoLogyContext， 
OutputCoLLector collector) { 
outputCollector = collector; 


} 


@Override 


public void declareOutputFields(OutputFieldsDeclarer declarer) { 


declarer .declare(new Fields("ticker", "price’)); ©@ 


} 


@Override 

public void execute(Tuple tuple) { 
String tick = tuple.getStringByField("tick"); ©@ 
String[] parts = tick.split(","); © 
outputCollector .emit(new Values(parts[0], parts[4])); @ 
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outputCoLLector .ack(tuple); © 
} 
} 


@ 为 该 bolt 发 送 的 元 组 定义 field 名 称 。 

名 从 输入 数据 流 中 获取 价格 记录 。 

@ 分 割 每 个 价格 记录 。 

@ 发 送 一 个 新 的 元 组 ， 该 元 组 由 股票 代码 与 收盘 价格 组 成 。 
@ 明确 固定 上 游 spout 中 的 元 组 ， 确 认 该 元 组 的 处 理 。 
HDFS bolt 的 代码 如 下 。 


RecordFormat format = new DelimitedRecordFormat() 和 @@ 
.withFieldDelimiter("|"); 
SyncPolicy syncPoLicy = new CountSyncPolicy(100); © 





FileRotationpolicy rotationpolicy = © 
new FileSizeRotationpolicy(5.0f, Units.MB); 


FileNameFormat fileNameFormat = new DefaultFileNameFormat() @ 
.withpath("stock-ticks/"); 


HdfsBolt hdfsBolt = new HdfsBolt() © 
.withFsUrl("hdfs://localhost:8020") 
.withFileNameFormat(fileNameFormat) 
.withRecordFormat(format) 
.withRotationPpolicy(rotationPolicy) 
.WithSyncPoLicy(syncPoLicy ) ; 


return hdfsBolt; 
@ 为 存储 到 HDFS 的 数据 定义 格式 。 
@ 每 完成 100 元 组 便 同步 到 HDFS。 
四 达到 5 MB 时 旋转 一 次 文件 。 
@ 将 文件 存储 到 HDFS 中 一 个 称 作 stock-ticks 的 目录 ， 该 目录 位 于 用 户 的 内 部 目录 。 
@ 使 用 我 们 刚刚 定义 的 参数 创建 bolt。 
解析 输入 元 组 时 ， 将 要 执行 计算 移动 平均 任务 的 bolt 为 CalcMovingAvgBolt。 


public class CalcMovingAvgBolt extends BaseRichBolt { 




















private OutputCollector outputCollector; 
private Map<String, LinkedList<Double>> windowMap; ©@ 
private final int period = 5; 


@Override 

public void prepare(Map config, 
TopologyContext topoLogyContext， 
OutputCollector collector) { 
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outputCollector = collector; 
windowMap = new HashMap<String, LinkedList<Double>>(); 


} 


@Override 
public void declareOutputFields(OutputFieldsDeclarer declarer){ © 


} 


/** 
* 对 于 输入 流 中 每 一 个 ticker ,计算 它 的 移动 平 
*] 
@Override 
public void execute(Tuple tuple) { 
String ticker = tuple.getStringByField("ticker"); © 
String quote = tuple.getStringByField("price"); 


下 
Rey 








Double num = Double.parseDouble(quote); 
LinkedList<Double> window = (LinkedList)getQuotesForTicker(ticker); @ 
window.add(num); © 


// 为 进行 测试 ,打印 至 System.out。 实 际 情况 下 应 将 元 组 
// 发 送 至 下 游 bolt 或 持久 层 


System.out.printLn("---------------- "); 9 
System.out.println("moving average for ticker " + ticker + "=" + 
getAvg (window)); 
System.out.printLn("----------------- es 
} 
/** 
机 


返回 指定 ticker 的 当前 窗口 。 








* 
/ 
private LinkedList<Double> getQuotesForTicker(String ticker) { ©@ 
LinkedList<Double> window = windowMap.get(ticker); 
if (window == null) { 
window = new LinkedList<Double>(); 
windowMap.put(ticker, window); 
} 


return window; 


} 


/** 
* 返回 当前 窗口 平均 值 











*/ 
public double getAvg(LinkedList<Double> window) { © 
if (window.isEmpty()) { 
return 0; 


} 
// 从 窗口 去 掉 最 早 价格 : 


if (window.size() > period) { 
window.remove(); 


} 





double sum = 0; 
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for (Double price : window) { 
sum += price.doubleValue(); 


} 


return sum / window.size(); 


} 
} 


@ 创建 一 个 Map， 维 护 每 个 股票 的 窗口 。 正 如 前 面 讨论 过 的 ， 我 们 可 以 使 用 field 分 组 来 
确保 一 个 ticker 中 的 所 有 的 值 都 进入 同一 个 bolt， 但 是 我 们 不 能 保证 单个 的 bolt 只 获 
取 单 个 ticker 的 值 。 我 们 会 使 用 一 个 Map， 由 股票 代码 标记 ， 因 此 我 们 可 以 在 bolt 实 
例 中 管理 多 个 股票 的 窗口 。 


@ 为 了 进行 测试 ， 我 们 只 打印 标准 输出 ， 所 以 不 需要 声明 输出 field。 在 实际 情况 中 ， 举 例 
来 说 ， 我 们 可 能 会 将 元 组 发 送 到 一 个 下 游 bolt 或 者 一 个 持久 层 。 

@@ 从 输入 元 组 中 检索 股票 与 价格 的 值 。 

@ 检索 与 股票 相关 的 值 列表 (目前 的 窗口 )。 

@ 将 目前 的 值 添加 到 窗口 。 

@ 调用 方法 ， 计 算 目 前 窗口 的 平均 值 ， 并 输出 结果 。 


@ getQuotesForTicker() 方法 将 检索 目前 窗口 所 要 求 的 股票 。 如 果 窗 口 不 存在 ， 那 么 创建 
一 个 新 的 窗口 。 


@ 将 平均 值 返 还 到 目前 的 窗口 。 广 意 ， 在 计算 平均 之 前 我 们 确保 将 窗口 往 前 移动 。 


拓扑 配置 到 MovingAvgLocalTopologyRunner 类 的 buildTopology() 方法 中 。 这 种 方法 如 下 
所 示 。 


private static StormTopology buildTopology() { 

































































TopologyBuilder builder = new TopologyBuilder(); © 
builder.setSpout("stock-ticks-spout", new StockTicksSpout()); 名 


builder.setBolt("hdfs-persister-bolt", createHdfsBolt()) © 
.shuffleGrouping("stock-ticks-spout"); 


builder.setBolt("parse-ticks", new ParseTicksBolt()) 四 
.shuffleGrouping("stock-ticks-spout"); 


builder.setBolt("calc-moving-avg", new CalcMovingAvgBolt(), 2) ©@ 
.fieldsGrouping("parse-ticks", new Fields("ticker")); 


return builder.createTopology(); @ 
} 


@ 使 用 TopologyBuilder 类 ， 将 bolt 与 spout 传送 到 一 个 拓扑 中 。 
@ 定义 spout。 
加 定义 HDFS bolt。 
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@ 定义 解析 股票 的 bolt。 


@ 定义 实际 执行 计算 移动 平均 的 bolt。 注 意 ， 我 们 使 用 了 field 分 组 ， 以 确保 一 个 股票 的 
所 有 值 都 会 进入 到 同一 个 bolt。 


@ 创建 一 个 拓扑 。 




















7.2.12 Storm 评估 


我 们 已 经 讨论 过 了 Storm 与 Hadoop 的 集成 ， 下 面 看 一 下 Storm 是 否 符合 我 们 在 本 章 开 始 
时 定义 的 其 他 标准 。 
1. 支持 聚合 与 窗口 

在 Storm 中 ， 类 似 于 计数 与 计算 窗口 平均 的 任务 很 容易 实现 ， 因 为 现 有 的 bolt 实现 案例 能 
够 用 于 一 些 常见 操作 ， 而 且 Storm 中 的 拓扑 与 分 组 功能 很 好 地 支持 了 这 种 处 理 类 型 。 


但 是 ， 这 里 也 存在 两 个 缺陷 : 首先， 计数 器 的 本 地 存储 与 历史 信息 需要 执行 持续 的 计数 与 
移动 平均 ， 但 并 不 是 容错 性 的 。 因 此 ， 丢 失 bolt 处 理 时 ， 我 们 会 失去 所 有 的 本 地 持久 化 的 
值 。 这 时 Storm 创建 的 聚合 变 得 不 可 靠 ， 因 此 这 里 需要 通过 一 个 批 数 据 任务 增加 准确 性 。 


第 二 个 问题 关乎 吞吐 量 。Storm 通过 外 部 持久 化 系统 (如 HBase 或 Memcached) 将 计数 与 
平均 持久 化 ， 进 而 得 到 吞吐 量 。 如 我 们 在 前 面 广 意 到 的 ， 单 一 的 put 会 带 来 更 多 的 磁盘 同 
步 数据 ， 也 需要 网 络 中 额外 的 来 回 传送 。 

2. 数据 扩充 与 告警 

我 们 在 前 面 讨 论 过 ，Storm bolt 在 访问 事件 时 允许 有 很 短 的 延迟 ， 开 发 者 进而 能 够 实现 事 
件 扩充 与 报警 的 功能 。 这 在 功能 上 类 似 于 Flume 拦截 器 。 如 果 想 要 将 已 扩充 的 数据 持久 化 
存储 到 某 一 系统 (如 HBase 或 HDFS) 中 ,不 同 于 Storm，Flume 可 以 在 延迟 相差 不 大 的 
前 提 下 ， 通 过 某 些 选 项 和 配置 拥有 更 高 的 吞吐 量 。 

3. Lamdba 架 构 

注意 ， 并 不 存在 100% 可 靠 的 数据 流 方案 。 复 制 或 丢失 数据 的 情况 总 是 有 可 能 出 现 。 与 
Storm 处 理 结合 时 ， 必 须 确 保有 精确 的 数据 系统 能 保证 运行 批 数据 任务 。 实 现 这 种 批 数据 
处 理 的 代码 通常 由 MapReduce 或 Spark 等 完成 。 


7.3 ” Trident 接口 


如 前 所 述 ，Trident 是 Storm 上 的 高 层 抽象 ， 能 够 解决 一 次 处 理 一 个 事件 时 出 现 的 问题 。 
Trident 的 设计 者 并 没有 创建 一 个 完整 的 新 系统 ， 而 是 选择 把 Storm 包 起 来 ， 以 便 支持 与 
Storm 之 间 的 交互 。 与 Storm 不 同 ，Trident 后 面 伴随 着 一 个 类 似 于 SQL 的 声明 性 项 目 模 
型 。 换 名 话说 ，Trident 按照 是 什么 而 不 是 怎么 做 来 表达 拓扑 。 


Trident 应 用 以 Trident spout 替换 Storm spout， 但 是 没有 定义 bolt 来 处 理 元 组 ， 而 是 使 用 
Trident 操作 (Trident operation) 进行 处 理 。 你 即将 看 到 ， 后 面 的 例子 没有 像 Storm 一 样 定 
义 明 确 的 拓扑 来 处 理 数 据 流 ， 而 是 把 这 些 操作 串 成 链 ， 创 建 了 自己 的 处 理 流程 。Trident 提 
供 了 大 量 操 作 类 型 ， 如 过 滤 、 分 片 、 合 并 与 分 组 。 对 于 使 用 过 SQL 或 者 抽象 (如 Pig 或 
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Cascading) 的 用 户 来 说 ， 大 多 数 的 操作 类 型 都 不 陌生 。 也 就 是 说 ， 你 只 能 用 提供 的 操作 实 
现 Trident 应 用 ， 尽 管 如 此 ， 正 如 后 面 的 内 容 会 谈 到 的 ， 这 些 操作 范围 之 内 产生 的 处 理 存 
在 一 定 的 灵活 性 。 
当然 ，Storm 与 Trident 之 间 还 有 一 个 主要 差异 : Trident 后 面 会 跟随 着 一 个 Microbatch 模 
型 按照 元 组 的 批 次 而 不 是 单个 独立 的 元 组 处 理 数据 流 。 这 就 提供 了 一 个 模型 ， 易 于 支 
持 只 进行 一 次 的 语法 。 
Trident 的 一 个 核心 特点 是 支持 可 靠 的 “ 仅 一 次 处 理 ”， 人 允许 从 有 状态 的 来 源 (如 内 存 或 
HDFS) 读 取 元 组 以 及 写 入 元 组 。 因 此 ， 它 在 事件 出 现 错误 时 能 够 重新 发 送 元 组 ， 而 且 
Trident 能 够 管理 批 次 ， 确 保 元 组 只 处 理 一 次 。 


7.3.1 Trident 示 例 : 简单 移动 平均 
我 们 将 提供 一 个 简单 的 例子 ， 帮 助 你 了 解 Trident 应 用 。 值 得 注意 的 是 ， 之 前 使 用 的 HDFS 
bolt 也 支持 Trident， 尽 管 这 个 例子 与 此 无 关 。 
与 前 面 的 例子 相同 ， 这 里 要 计算 股票 价格 数据 的 移动 平均 。 与 前 面 的 例子 不 同 的 是 ， 为 了 
简便 行事 ， 到 达 的 数据 流 将 只 包含 一 个 单一 价格 的 记录 。 这 些 记 录 的 格式 如 下 。 

date, opening price, daily high, daily low, closing price，VvoLume，adjusted close 
让 我 们 看 一 下 示例 代码 中 MovingAvgLocalTopologyRunner 的 主 类 。 


public class MovingAvgLocalTopologyRunner { 




















































































































public static void main(String[] args) 
throws Exception { 


Config conf = new Config(); 
LocalCluster cluster = new LocalCluster(); 


TridentTopoLogy topology = new TridentTopology(); 


Stream movingAvgStream = 
topology.newStream("ticks-spout", buildspout()) ©@ 
.each(new Fields("stock-ticks"), new TickParser(), new FieLds("price")) @ 
.aggregate(new Fields("price"), new CalculateAverage(), 
new Fields("count")); 


cluster .submitTopology("moving-avg", conf, topology.build()); @ 
} 
} 

@ 创建 一 个 新 的 spout， 将 价格 元 组 批量 地 发 送 到 拓扑 中 。 这 里 只 是 使 用 一 个 简单 的 
spout， 从 一 个 本 地 文件 中 读 取 记录 并 发 送 包 含 五 个 元 组 的 批 处 理 。buildspout() 是 一 
种 很 实用 的 方法 ， 在 FixedBatchspoutBuilder 中 定义 (参见 下 一 个 代码 区 域 )， 这 种 方 
法 简单 地 从 一 个 文件 中 读 取 股票 数据 ， 并 且 一 次 发 送 包 含 五 条 记录 的 批 处 理 。 

@ 对 于 输入 数据 流 的 每 个 元 组 ， 使 用 TickParser 类 解析 价格 field。 

图 使 用 采 合 操作 计算 平均 。 我 们 随后 会 看 到 相关 代码 。 
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@ 启动 拓扑 。 
在 讲解 聚合 操作 之 前 ， 我 们 先 看 一 下 用 于 FixedBatchspoutBuitder 工具 类 的 代码 。 


public class FixedBatchSpoutBuilder { 
public static FixedBatchSpout buildSpout() { 
List<VaLues> ticks = new FixedBatchSpoutBuilder().readDatal(); 





FixedBatchSpout spout = new FixedBatchSpout(new Fields("stock-ticks"), 5, 


ticks.toArray(new Values[ticks.size()])); 
spout.setCycle(false); 
return spout; 


} 


public List<Values> readData() { 
try { 
BufferedReader reader = new BufferedReader( 
new InputStreamReader(getClass().getResourceAsStream( 
"/AAPL _daily_prices.csv"))); 


List<Values> ticks = new ArrayList<Values>(); 
String line = null; 


while ((Line = reader.readLine()) != nuLL) ticks.add(new Values(line)); 


return ticks; 
} catch (IOException e) { 
throw new RuntimeException(e); 
} 
} 
} 





我 们 已 经 注意 到 ， 执 行 计算 平均 的 类 是 一 种 聚合 操作 的 实现 。 这 里 使 用 了 来 自 Trident API 





的 Aggregator， 如 下 所 示 。 


public class CalculateAverage 
extends BaseAggregator <CalculateAverage.AverageState> { 


static class AverageState { 
double sum = 0; 


} 


@Override 


public AverageState init(Object batchId, TridentCollector collector) { ©@ 


return new AverageState(); 


} 


@Override 
public void aggregate(AverageState state, 
TridentTuple tuple, 
TridentCollector collector) { 外 
state.sum = state.sum + Double.valueOf((Double)tuple.getValue(0)); 


} 


@Override 


public void complete(AverageState state, TridentCollector collector) { © 


collector .emit(new Values(state.sum/5)); 


} 
} 
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@ 在 每 个 批 次 被 处 理 之 前 调用 init() 方法 。 这 种 情况 下 ， 我 们 只 创建 一 个 包含 状态 的 新 
对 象 。 在 这 里 ， 状 态 只 是 批 次 中 收盘 价格 的 简单 加 和 。 

@ 批 次 中 的 每 个 元 组 都 调用 aggregate() 方法 ， 而 且 该 方法 会 简单 地 更 新 收盘 价格 的 总 和 。 

全 当 批 次 中 所 有 的 元 组 都 经 过 处 理 后 ， 调 用 complete() 方法 ， 并 将 计算 的 得 出 的 平均 发 
送 到 批 次 。 

与 Storm 中 的 例子 相 比 ， 这 个 例子 有 些 简 单 ， 但 Trident 代码 明显 比 Storm 代码 更 精确 。 我 

们 没有 通过 编写 多 行 代码 定义 一 个 拓扑 ， 只 是 简单 定义 操作 来 执行 处 理 。 使 用 的 代码 如 下 。 


Stream movingAvgStream = 
topology.newStream("ticks-spout", buildSpout()) 
.each(new Fields("stock-ticks"), new TickPparser(), new Fields("price")) 
.aggregate(new Fields("price"), new CalculateAverage(), new Fields("count")); 


我 们 需要 编写 一 些 自 定义 代码 来 计算 移动 平均 ， 但 是 Trident 也 包含 很 多 内 置 的 操作 ， 能 
够 实现 常见 的 处 理 任务 。 


我 们 已 经 概述 了 Trident， 如 欲 了 解 更 多 ， 请 参阅 在 线 文档 (http://storm.apache.org/releases/ 
current/Concepts.html) 或 Storm Applied。 



































7.3.2 Trident 评 估 
了 解 了 Trident 的 作用 方式 ， 下 面 我 们 来 看 一 下 它 是 如 何 与 数据 流 评估 标准 相 联系 的 。 

1. 支持 计数 与 窗口 化 

与 核心 Storm 相 比 ，Trident 有 很 大 的 提高 。 借 此 ， 我 们 能 够 持久 化 到 外 部 存储 系统 ， 维 持 
较 高 的 吞吐 量 。 

2. 数据 扩充 与 告警 

这 里 应 该 有 一 些 与 核心 Storm 相同 的 功能 。 对 于 Trident， 批 次 只 是 一 层 封装 。 这 与 Spark 
Streaming 中 的 批 不 同 ， 后 者 是 真正 的 Microbatcn， 表 明 在 发 送 第 一 个 事件 之 前 存在 延迟 。 
相反 ，Trident 中 的 “batch” 只 不 过 是 一 组 元 组 结尾 处 的 标记 。 

3. Lamdba 架 构 

再 说 一 次 ， 并 不 存在 完全 可 靠 的 数据 流 方法 ， 但 是 在 这 里 Trident 要 优 于 Storm。 尽 管 为 了 
支持 Lamdba 架构 ， 我 们 仍然 需要 在 MapReduce 或 Spark 等 应 用 中 实现 批 处 理 。 









































7.4 Spark Streaming 


Spark Streaming 是 数据 流 处 理 领 域 的 新 事物 。Spark Streaming 充分 利用 了 Spark RDD 的 强 
大 之 处 ， 并 与 可 靠 性 及 只 进行 一 次 处 理 的 语义 结合 。 与 Trident 类 似 ，Spark Streaming 提供 
了 一 个 数据 流 处 理 方 案 ， 其 吞吐 量 非常 高 。 
如 果 你 的 使 用 案例 允许 在 2~5 秒 的 Microbatch 中 处 理 数 据 ， 那 么 使 用 Spark Streaming 会 带 
来 以 下 优势 。 

。 可 靠 的 中 间 数 据 持久 化 ， 用 于 计数 与 移动 平均 。 
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。 支持 与 外 部 存储 系统 (如 HBase) 集成 。 





。 在 数据 流 与 批 处 理 之 间 复 用 代码 。 
。 Spark Streaming 的 Microbatch 模型 允许 处 理 帮助 降低 复制 事件 的 风险 的 模式 。 


7.4.1 


























Spark Streaming 概 述 


已 经 熟悉 Spark 的 用 户 会 发 现 ，Spark Streaming 在 代码 风格 与 API 方面 同 Spark 非常 相似 。 
我 们 首先 探讨 Spark Streaming 的 StreamContext， 它 是 SparkContext 的 封装 。 回 忆 一 下 ， 
SparkContext 是 标准 Spark 应 用 的 根本 。StreamContext 最 大 的 不 同 之 处 在 于 一 个 被 称 作 
batchDuration 的 参数 。 这 个 周期 会 设 定 目 标 批 次 间隔 ， 我 们 稍 后 会 对 此 进行 解释 。 

核心 Spark 使 用 SparkContext 创建 初始 RDD。 与 此 相同 ，Spark Streaming 使 用 StreamingContext 


创建 初始 的 


东西 。 标 准 


























DStream。DStrean 是 RDD 的 封装 。 两 者 的 不 同 之 处 在 于 它们 实际 上 代表 不 同 的 
RDD 引用 了 一 个 分 布 式 的 、 不 可 变 的 集合 ， 而 DStream 引用 了 与 批 次 窗口 相关 




















的 、 分 布 式 的 、 不 可 变 集 合 。 为 了 了 解 一 下 背景 ， 我 们 可 以 把 一 个 DStreanm 看 作 一 个 电视 ， 
屏幕 上 出 现 的 景象 在 不 断 地 改变 ， 但 是 背后 是 静止 的 图 像 。 本 文中 ，RDD 是 不 会 改变 (不 





可 变 的 ) 的 











图 像 ， 而 Dstream 是 电视 ， 看 起 来 可 变 ， 实 际 上 由 一 系列 不 可 变 的 RDD 组 成 。 


这 个 思路 比较 复杂 ， 所 以 我 们 来 看 Spark Streaming 的 几 个 例子 ， 然 后 再 用 图 例 的 方式 进行 


解释 。 





7.4.2 Spark Streaming 示 例 : 简单 求 和 
我 们 首先 讲 一 个 例子 。 这 个 例子 使 用 StreamingContext 创建 了 一 个 InputDSstream， 而 后 执 


行 一 个 简单 


的 过 滤 与 求 和 ， 如 图 7-7 所 示 。 
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7-7: Spark Streaming 简单 求 和 


识 入 研究 一 下 这 张 图 ， 我 们 可 以 总 结 出 以 下 几 点 。 
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。 每 一 点 都 是 以 批 为 基础 的 ， 而 且 该 图 展示 了 同一 系统 不 同时 间 点 的 情况 。 

。 InputDStreanm 通常 会 收集 数据 并 将 数据 放置 到 一 个 新 的 RDD 中 处 理 。 

。 执行 DStreanm 时 不 会 再 获取 数据 。 执 行 状 态 时 它 是 一 个 不 可 改变 的 DStream。 我 们 随后 
会 讨论 相关 内 容 ， 这 保证 了 批 次 可 以 成 功 地 完成 重新 发 送 。 

。 Spark 在 同一 引擎 上 运行 。 

。 在 DStrean 的 上 下 文中 , RDD 在 不 需要 的 时 候 移 除 。 从 图 上 看 , 似乎 只 要 执行 下 一 步 ， 
RDD 就 被 移 除 ， 但 这 其 实 是 工作 方式 的 过 度 简化 。 移 除 的 主要 目的 是 清除 未 使 用 的 

旧 RDD。 


后 台 代 码 如 下 所 示 。 这 个 例子 对 每 秒 发 送 到 Spark Streaming 中 包含 单词 the 的 句子 计数 。 


val sc = new SparkContext(sparkConf) 

val ssc = new StreamingContext(sc, Seconds(1)) 

val rawStream = ssc.socketTextStream(host, port, StorageLevel.MEMORY_ONLY_SER_2) 
rawStream.filter(_.contains("the")).count().print() 

ssc.start() 


























7.4.3 ”Spark Streaming 示 例 : 多 路 输入 


现在 ， 我 们 往 前 走 一 步 ， 增 加 更 多 的 InputDStream， 再 看 看 会 是 什么 样子 。 在 图 7-8 中 ， 我 
们 拥有 三 个 Inputpstream， 而 且 在 执行 过 滤 与 求 和 之 前 将 其 联合 。 这 里 展示 了 处 理 获 取 的 多 
路 输入 流 ， 以 及 一 个 联合 的 执行 。 我 们 将 其 当 作 一 个 单一 的 数据 流 。 注 意 ， 在 联合 之 前 执行 
过 滤 与 求 和 会 更 高 效 ， 但 是 我 们 在 这 个 例子 中 要 尽量 少 做 改变 ， 以 便 曾 明 多 路 输入 的 含义 。 
该 处 理 如 图 7-8 所 示 。 
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7-8: Spark Streaming 多 路 输入 
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代码 如 下 。 


val sc = new SparkContext(sparkConf) 
val ssc = new StreamingContext(sc, Seconds(1)) 
val rawStream1 = 

ssc.socketTextStream(host1, port1, StorageLevel.MEMORY_ONLY_SER_2) 
val rawStream2 = 

ssc.socketTextStream(host2, port2, StorageLevel.MEMORY_ONLY_SER_2) 
val rawStream = rawStreaml1.union(rawStream2) 
rawStream.filter(_.contains("the")).count().print() 
ssc.start() 


其 中 并 没有 多 少 新 东西 ， 我 们 只 是 增加 了 另 一 个 输入 ， 这 个 输入 能 够 增加 更 多 数据 流 。 我 
们 可 以 选择 进行 联合 ， 而 且 在 一 个 单一 的 Microbatch 中 执行 任务 。 但 是 这 不 表示 合并 数据 
流 都 是 有 意义 的 。 在 处 理 大 容量 数据 时 ， 最 好 永远 都 不 要 合并 数据 流 ， 以 免 增 加 延迟 。 
很 多 设计 模式 都 可 以 对 到 达 的 数据 分 区 ， 比 如 输入 数据 流 来 自 不 同 Kafka 分 区 的 情况 。 注 
意 ， 通 过 分 区 进行 联合 或 合并 代价 都 比较 大 ， 所 以 如 果 应 用 不 要 求 使 用 就 应 该 避免 。 























7.4.4 _ Spark Streaming 示 例 : 状态 维护 


下 一 个 例子 解释 了 在 间隔 之 间 (比如 执行 连续 求 和 的 情况 ) 维护 状态 转移 的 思路 ， 如 图 7-9 
所 示 。 

















DStream DStream 


第 0 轮 批 





第 1 轮 批 





第 2 轮 批 

















7-9: Spark Streaming 中 的 状态 维护 


代码 如 下 。 


val sc = new SparkContext(sparkConf) 
val ssc = new StreamingContext(sc, Seconds(1)) 
val rawStream = ssc.socketTextStream(host, port, StorageLevel.MEMORY_ONLY_SER_2) 


val countRDD = rawStream.filter(_.contains("the")) 
.Count() 
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.map(r => ("foo", r)) 


countRDD .updateStateByKey((a: Seq[Long], b: Option[Long]) => { © 
var newCount = b.getOrElse(01) 
a.foreach( i => newCount += i) 
Some(newCount) 和 
}) .print() 


ssc.checkpoint(checkpointDir) © 
ssc.start() 

这 是 DStrean 交叉 进入 批 处 理 的 第 一 个 例子 。 在 这 里 ， 一 个 批 次 的 总 和 被 用 于 合并 新 的 总 

和 ， 然 后 产生 一 个 包含 新 总 和 的 新 DStream。 

下 面 深 入 研究 这 段 代码 。 

@ 首先 要 注意 的 是 ， 用 于 updateStateByKey0 的 函数 基于 一 个 键 ， 所 以 只 会 将 值 传 入 ， 尽 
管 值 的 传 入 方式 是 Spark 独 有 的 。 第 一 个 值 是 Seq[Long]， 来 自 Microbatch 的 这 个 键 包 
含 了 所 有 可 能 的 新 值 。 该 批 次 很 可 能 不 包含 任何 一 个 值 ， 而 且 这 会 是 一 个 空 的 Seq。 第 
二 个 值 是 一 个 Option[Long]， 代 表 来 自 最 后 一 个 Microbatch 的 值 。 因 为 可 能 不 存在 值 ， 
所 以 Option 允许 它 为 空 。 

@ 注意 ， 这 里 返回 的 是 一 个 Option[Long]。 因 此 我 们 能 够 使 用 一 个 Scala None， 选 择 移 除 
填充 在 先前 Microbatch 中 的 值 。 

图 最 后 要 注意 的 是 ， 我 们 已 经 增加 了 一 个 检查 点 文件 夹 (checkpoint folder)。 这 有 助 于 重 
新 存储 RDD。 这 些 RDD 穿 过 Microbatch， 并 且 能 够 提供 额外 的 数据 丢失 防护 。 




























































































DStream 的 不 可 变性 是 如 何 提供 容错 的 
对 于 出 现 错误 时 Spark Streaming 执行 恢复 的 方式 来 说 ， 这 是 一 个 很 好 的 讨论 切入 点 。 
在 目前 涉及 的 例子 当中 ， 我们 已 经 看 到 ，DStreanm 总 是 由 很 多 不 可 改变 的 RDD 组 成 。 
也 就 是 说 ， 它 们 创建 之 后 不 能 改变 。 
在 updateStateByKey() 命令 中 有 状态 的 DStream 就 是 一 个 极 好 的 例子 。 合 并 批 次 5 中 
的 结果 与 前 面 批 次 的 有 状态 DStream RDD， 就 创建 了 新 的 有 状态 的 DStream。 


出 现 错误 时 ，Spark 有 两 种 选择 : 对 于 每 NV 个 Microbatch， 有 状态 的 DStreanm 传输 到 一 
个 检查 点 目录 ，N 可 配置 。 因 此 ， 配 置 在 每 个 Microbatch 上 进行 写 入 ， 我 们 就 能 够 从 
检查 点 目录 中 恢复 。 如 果 将 N 设 定 为 一 个 大 于 每 个 批 次 的 值 ， 那 么 我 们 需要 使 用 用 来 
创建 它 的 RDD 重新 创建 状态 。 

这 里 需要 在 磁盘 I/0 上 作出 牺牲 ， 但 在 实践 中 ， 分 布 式 情况 决定 这 会 是 一 个 比较 小 的 
牺牲 。 你 也 可 以 使 用 额外 的 内 存 来 存储 重新 创建 的 路 径 。 注 意 ， 选 择 制图 版 恢复 错误 
更 有 效 ， 但 在 本 文 写 作 时 这 还 是 状态 的 东西 。 














注意 ， 这 种 有 状态 的 DStrean 与 Trident 状态 相似 ， 但 它们 之 间 也 存在 不 同 。 它 仍然 在 
Spark Streaming 中 ， 而 且 是 容错 的 。Trident 需要 你 在 一 个 外 部 持久 性 系统 上 重新 启动 ， 否 
则 无 法 获得 同样 的 功能 并 提供 容错 。 而 Spark Streaming 中 的 DStrean 是 容错 的 。 
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7.4.5 _ Spark Streaming 示 例 : 窗口 函数 
现在 ， 假 设 我 们 想 对 一 段 时 间 进 行 滚动 求 和 。 实 现 的 方式 如 以 下 代码 所 示 。 
val sc = new SparkContext(sparkConf) 


val ssc = new StreamingContext(sc, Seconds(2)) 
val rawStream = ssc.SsocketTextStream(host，port，StorageLeveL.MEMORY_ONLY_SER_2) 


val words = rawStream.flatMap(_.split(' ')) 
val windowCount = words.countByValueAndWindow(Seconds(20), Seconds(6)) 
windowCount.count.print() 


ssc.checkpoint(checkpointDir) 


ssc.start() 


那么 这 又 是 怎样 工作 的 呢 ? 如 图 7-10 所 示 ，Spark Streaming 将 存储 一 束 DStream， 而 且 使 
用 这 些 DStrean 创建 第 一 个 结果 ， 直 到 达到 第 六 个 pass。 在 第 六 个 pass 上 ， 我 们 将 增加 最 
后 一 个 结果 与 新 值 ， 并 且 移 除 最 旧 的 值 。 由 此 ， 在 执行 时 间 固 定时 ， 该 pass 会 延展 到 20， 
30，100 的 窗口 。 


第 5 轮 批 | 


第 6 轮 批 












































7-10: Spark Streaming 窗口 示例 


7.4.6 Spark Streaming 示 例 : Streaming 与 ETL 代 码 比 较 


在 随后 的 例子 当中 ， 我 们 会 看 一 下 Spark Streaming 与 Spark 之 间 的 代码 差异 。 再 次 使 用 词 
汇 计数 作为 例子 ,假设 我 们 想 在 一 个 数据 流 模式 ， 以 及 一 个 批量 模式 中 运行 程序 。 下 面 看 
一 下 Spark Streaming 与 Spark 的 代码 以 及 执行 时 的 差异 。 


Spark Streaming 的 代码 如 下 。 
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val Lines = ssc.textFileStream(args(0)) 

val words = lines.flatMap(_.split(" ")) 

val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _) 
wordCounts.print() 


Spark 的 代码 如 下 。 


val lines = ssc.textFileStream(args(0)) 

val words = lines.flatMap(_.split(" ")) 

val wordCounts = words.map(x => (x, 1)).reduceByKey(_+ _) 

wordCounts.print() 
Spark 与 Spark Streaming 的 项 目 模 型 是 一 样 的 ， 以 上 代码 也 证 明了 这 种 说 法 。 如 同 刚才 所 
说 的 ， 某 些 情况 下 代码 与 流程 在 批 次 中 与 数据 流 中 的 执行 会 有 所 不 同 。 但 是 ， 即 使 在 那 种 
情况 下 ， 大 多 数 代码 也 都 在 转化 函数 中 。 


以 下 例子 有 所 不 同 。 前 面 的 代码 片段 都 执行 同样 的 任务 ， 一 个 用 于 一 个 批 次 而 另 一 个 用 于 
一 个 固定 的 输入 事件 集 。 但 是 如 果 我 们 想 要 比较 一 个 连续 的 词汇 求 和 呢 ? 那么 我 们 可 以 看 
一 下 后 面 的 代码 。 

val words = lines.flatMap(_.split(" ")) 


val wordCounts = words.map(x => (x, 1)).updateStateByKey[Int](_ + _) 
wordCounts.print() 


尽管 代码 并 不 完全 相同 ， 但 背后 的 引擎 是 相同 的 。 代 码 本 身 含有 的 差异 较 小 ， 而 且 仍 然 能 
利用 函数 复 用 。 

对 于 Spark Streaming 的 功能 ， 我 们 的 讨论 还 不 够 多 ， 但 是 希望 前 面 的 例子 能 够 为 你 提供 基 
本 的 理解 。 

要 进一步 研究 Spark Streaming， 请 查看 Spark 文档 (https://spark.apache.org/docs/latest/ 


streaming-programming-guide.html) 或 者 查阅 Learning Spark (http://shop.oreilly.com/product/ 
0636920028512.d0)。 


也 要 注意 ， 每 发 布 一 个 版 本 ， 开 放 给 Spark Streaming 的 Spark 的 功能 就 越 多 。 这 也 意味 
着 ， 类 似 于 GraphX 与 MLlib 的 工具 能 够 成 为 NRT 方法 的 一 部 分 ， 为 支持 不 同 数据 流 的 使 
用 案例 提供 更 多 机 会 。 



























































Spark Streaming 容错 


Spark _ Streaming 将 预 写 式 日 志 (Write Ahead Log, WAL) 用 于 驱动 器 处 理 ， 与 HBase 
相似 ， 所 以 在 驱动 器 处 理 出 现 错误 时 ， 另 一 个 驱动 器 处 理 能 够 启动 ， 而 且 能 够 将 状 
态 从 WAL 中 集结 起 来 。 使 用 了 WAL，Spark Streaming 中 的 数据 不 可 能 丢失 ， 因 为 
DStream 在 RDD 上 是 内 置 的 ， 而 RDD 为 弹性 设计 。 弹 性 程度 由 开发 者 确定 ， 这 一 点 
与 标准 的 Spark 任务 相同 。 


为 出 现 故 障 时 数据 得 到 了 “保护 ”， 所 以 故障 时 Spark Streaming 会 知道 需要 重新 运 
行 哪个 转换 或 操作 。Microbatch 系统 只 需要 跟踪 每 个 批 次 的 成 功 或 失败 情况 ,而 不 用 关 
注 每 个 事件 。 从 性 能 上 讲 ， 这 是 一 个 很 大 的 优 热 。 事 件 级 别 的 监控 会 对 类 似 于 Storm 
的 系统 造成 很 大 的 影响 。 
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7.4.7 ”Spark Streaming 评 估 


现在 我 们 已 经 基本 理解 了 Spark Streaming 的 工作 流程 ， 所 以 下 面 总 结 一 下 Spark Streaming 
的 功能 与 工作 方式 。 


1. 支持 求 和 与 窗口 

求 和 、 窗 口 与 滚动 平均 在 Spark Streaming 中 非常 简单 。 与 其 他 系统 (如 Storm) 相 比 存在 

一 些 差 异 。 

。 进行 求 和 或 者 聚合 增 量 时 ， 平 均 延 迟 超 过 0.5 毫秒 。 

。 可 以 从 一 次 Worker 错误 中 恢复 ， 求 和 更 可 靠 。 

。 对 于 HBase 之 类 的 系统 ， 从 持久 求 和 与 平均 来 说 ，Microbatch 将 有 益 于 吞吐 量 ， 因 为 
Microbatch 允许 批 次 put 与 增 量 。 

。 与 Microbatch 相关 的 回复 也 将 帮助 减少 由 Spark Streaming 创建 的 副本 。 

2. 数据 扩充 与 告警 

在 数据 扩充 与 报警 方面 ，Spark Streaming 能 够 按照 Flume 与 Storm 的 方式 实现 。 如 果 要 求 

从 外 部 系统 (如 HBase) 查找 然后 执行 数据 扩充 与 报警 ， 那 么 Spark Streaming 甚至 可 能 会 

存在 性 能 和 吞吐 量 的 优势 。 

这 里 的 主要 缺陷 是 延迟 。 我 们 之 前 说 过 ，Spark Streaming 是 Microbatch， 所 以 如 果 要 求 在 

500 毫秒 内 报警 ， 那 么 就 不 应 该 选择 这 个 工具 。 

3. Lambda 架 构 

是 的 ， 你 猜 到 了 : 并 不 存在 完美 的 数据 流 方法 。 尽 管 Spark Streaming 不 完美 ,但 它 提供 了 

一 些 优势 ， 如 代码 复 用 。 用 于 Spark Streaming 的 代码 与 Spark 中 实现 ETL 的 代码 非常 相 

似 。 这 将 降低 维护 成 本 ， 化 解 新 兴 企 业 在 财务 上 的 烦恼 。 


7.5 ” ”Flume 拦截 器 


本 书 的 其 他 内 容 已 经 深入 介绍 了 Flume， 所 以 这 里 不 会 再 详细 介绍 。 本 章 内 容 只 包括 
Flume 的 数据 源 与 拦截 器 组 件 ， 如 图 7-11 所 示 。 

























































































































































































图 7-11: 用 于 数据 流 处 理 的 Flume 拦截 器 


拦截 器 在 Channel 前 面 ， 所 以 事件 只 要 收集 到 就 会 被 人 处理。 或 者 ， 一 个 批 次 中 预定 数量 的 
事件 有 了 定义 ， 事 件 也 会 被 处 理 。 
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在 选择 Flume 而 不 选择 其 他 方法 时 ， 本 章 重 点 考虑 到 ，Flume 非常 适合 采集 数据 。 验 证 或 
报警 的 情况 通常 伴随 一 个 持久 化 要 求 ， 所 以 这 一 点 非常 重要 。 欺 诈 报 警 就 是 一 个 例子 ,为 
了 以 后 进行 检查 ， 一 般 要 求 每 个 事件 与 事件 的 报警 决策 都 存储 到 HDFS 中 。 


7.6 工具 选择 


我 们 已 经 在 这 里 讨论 了 很 多 种 方法 以 及 这 些 方法 的 优势 与 缺陷 。 注 意 ， 只 要 找到 了 适合 的 

使 用 情况 ， 每 一 种 系统 都 是 有 优势 的 。 这 些 系统 都 是 不 同 的 引擎 ， 优 化 与 重点 稍 有 差异 。 

你 要 根据 自己 的 使 用 要 求 选择 合适 的 工具 ， 这 里 没有 一 芍 永 逸 、 一 成 不 变 的 选择 教条 。 我 

们 将 讨论 几 个 案例 场景 ， 并 探讨 使 用 这 些 工 具 解决 问题 的 不 同方 法 。 

我 们 将 关注 三 个 不 同 的 使 用 案例 。 

(采集 之 前 ， 事 件 的 低 延 迟 扩充 、 验 证 与 报警 。 

(2) NRT 求 和 、 滚 动 平均 与 迭代 处 理 ， 如 机 器 学 习 。 

(3) 更 复杂 的 数据 流水 线 。 基 本 上 包括 前 面 提 到 的 所 有 一 切 : 扩充 、 验 证 、 报 警 、 求 和 与 滚 
动 平 均 ， 以 及 最 后 的 采集 。 


7.6.1 低 延 迟 的 数据 扩充 、 验 证 、 报 警 及 采集 

对 于 这 个 任务 ， 我 们 将 通过 两 个 选择 来 探究 不 同 的 解决 方法 。 两 种 设计 都 被 用 于 实际 应 用 
中 而 且 每 个 方法 都 有 优势 。 举 例 来 说 ， 在 欺诈 检测 时 你 可 能 需要 这 种 功能 ， 我 们 将 在 第 9 
章 中 详细 讨论 。 

方法 1: Flume 

图 7-12 为 一 个 实现 这 种 功能 的 Flume 工作 流 。 如 图 7-12 所 示 ， 这 是 一 个 相当 简单 的 工作 
流 ， 由 一 个 自 定义 拦截 器 与 一 个 HDFS Sink 组 成 。Flume Channel 提供 了 一 种 数据 保护 的 
自 定义 水 平 ， 我 们 先前 在 介绍 Flume 时 已 经 提 到 过 。 拦 截 器 在 Channel 前 面 ， 因 此 在 处 理 


事件 时 也 会 稍 有 延迟 。 
HBase 


































































































溃 误 验证 及 报警 









7-12: 采用 Flume 的 使 用 案例 


方法 2: Kafka 与 Storm 
第 二 种 方法 如 图 7-13 所 示 ， 即 Storm 与 Kafka 联合 ， 使 用 Storm 处 理 ， 使 用 Kafka 进行 事 
件 传输 。Kafka 提供 了 可 靠 的 事件 传输 ， 而 Storm 提供 了 可 靠 的 事件 处 理 。 


注意 ， 我 们 使 用 Kafka 并 不 只 是 为 了 将 事件 传输 到 Storm， 也 是 为 了 将 事件 采集 到 HDFS 
中 ， 无 论 是 单独 使 用 还 是 随意 与 Flume 一 起 使 用 。 我 们 本 来 可 以 使 用 一 个 HDFS bolt 直接 
从 Storm/Trident 拓扑 写 人 到 HDFS。 这 样 做 可 能 更 有 效 ， 但 是 Kafka 与 Flume 更 成 熟 ， 而 
且 从 HDFS 集成 方面 来 看 提供 的 功能 更 多 。 
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错误 验证 







Memcache/HBase 


Storm/Trident 











7-13: 采用 Kafka 与 Storm 的 使 用 案例 1 


7.6.2 NRT 技术 、 深 动 平均 及 和 迭代 处 理 











对 于 这 种 情况 ， 并 不 存在 一 个 很 好 的 低 延 迟 选择 。 如 前 所 述 ，Storm 提供 了 一 种 很 好 的 低 
延迟 方法 ,但 是 要 使 用 批 次 创建 一 个 巨大 的 拓扑 非常 复杂 ， 这 非常 困难 。 即 使 我 们 克服 了 









































前 期 困难 ， 与 Spark Streaming 或 Trident 相 比 ， 后 续 维持 修改 也 会 非常 未 手 。 











我 们 可 以 在 Storm、Trident 或 Spark Streaming 中 创建 这 种 使 用 案例 。 每 种 方法 如 图 7-14 


所 示 。 





殉 用 RDD 进 行 
计数 


Spark Streaming 
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Pp 间 计 数 
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Memcache/Hbase 














7-14: 在 Trident 与 Spark Streaming 中 创建 的 使 用 案例 2 


在 决定 选择 哪 种 方法 时 要 考虑 以 下 因素 。 
。 批 次 与 数据 流 的 项 目 模 型 相同 





如 果 你 很 在 意 批 次 与 数据 流 的 项 目 模 型 是 否 相 同 ， 那 么 我 们 强烈 推荐 你 使 用 Spark 





Streaming。 这 样 一 来 ， 数 据 流 与 处 理 就 能 够 使 用 相同 的 语言 与 模型 ， 这 为 培训 、 管 理 
与 维护 提供 了 优势 。 

。 每 个 节点 的 吞吐 量 
这 样 或 是 那样 的 工具 总 会 有 各 不 相同 的 评价 标准 ， 这 没什么 好 奇怪 的 。 我 们 不 会 宣称 哪 














个 工具 在 性 能 方面 更 优越 。 根 据 使 用 情况 不 同 ， 任 何 一 个 工具 都 可 能 表现 出 色 ， 这 取决 
于 具体 情况 。 所 以 最 好 的 方法 是 尝试 一 个 原型 ， 确 定 一 个 特定 的 工具 是 否 能 够 提供 足够 


























的 性 能 。 
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。 高 级 功能 

在 这 里 ，Spark Streaming 有 一 定 的 优势 。 多 亏 了 背后 人 数 众多 的 贡献 者 ， 它 每 天 都 有 所 
进步 。 

7.6.3 复杂 数据 流 

这 种 实现 需要 满足 以 上 所 说 的 所 有 要 求 。 这 里 有 一 个 更 复杂 的 数据 流 ， 需 要 我 们 在 前 面 两 


个 例子 中 讨论 到 的 所 有 处 理 功 能 。 我 们 即将 看 到 ， 在 这 里 解决 方法 只 是 将 前 面 两 个 例子 的 
方法 加 到 一 起 。 我 们 首先 看 一 下 Flume 与 Spark Streaming 方法 ， 如 图 7-15 所 示 。 


错误 验证 及 
报警 




































































RDD 进 行 中 间 


2 











持久 化 扩充 后 的 数据 











7-15: 采用 Spark Streaming 的 使 用 案例 3 








这 里 主要 是 要 注意 以 前 未 出 现 的 Flume 与 Spark Streaming 的 集成 。 
现在 我 们 来 看 一 下 Storm/Trident 版 本 ， 如 图 7-16 所 示 。 











用 于 中 则 计 
数 的 存储 











Memcache/HBase 






用 于 计 玫 的 
持久 化 存储 









| Fume | 
ms 











7-16: 采用 Storm/Trident 的 使 用 案例 3 
在 这 里 唯一 的 更 改 是 ， 把 两 个 例子 的 拓扑 加 到 了 一 起 。 
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7.7 ”小结 


本 章 再 一 次 提 到 ，Hadoop 正在 迅速 变 成 大 数据 平台 ， 支 持 多 种 处 理 模型 。 除 了 能 够 有 效 处 
理 批 次 中 的 大 容量 数据 ，Hadoop 现在 还 能 够 作为 一 个 持续 处 理 数据 的 平台 ， 并 与 新 工具 
(如 Storm、Trident 和 Spark Streaming) 集成 使 用 。 我 们 也 探究 了 经 过 检验 显示 可 靠 的 Flume 
怎样 才能 用 于 NRT 任务 。 支 持 多 种 处 理 模 型 的 功能 使 Hadoop 成 为 了 企业 数据 的 枢纽 。 

我 们 也 在 本 章 中 看 到 ， 在 Hadoop 上 选择 工具 进行 近 实 时 处 理 时 ， 工 具 的 选取 主要 取决 于 
使 用 情况 、 目 前 的 工具 集 ， 以 及 语言 等 。 选 择 工具 时 ， 你 应 该 全 面 考虑 ， 而 且 要 确保 使 用 
自己 的 工具 执行 合适 的 性 能 检测 ， 使 其 符合 应 用 要 求 。 
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第 二 部 分 





案例 研究 
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第 8 和 章 


中 击 流 分 析 








点 击 流 分 析 通 常 分 析 用 户 浏 览 网 站 产生 的 事件 ， 即 点 击 数 据 。 这 种 分 析 的 目的 一 般 是 了 解 
网 站 访问 者 的 用 户 行为 ， 从 而 向 基于 数据 的 后 续 决策 提供 信息 。 

点 击 流 分 析 能 够 发 现 用 户 与 线 上 展示 的 交互 方式 、 网 站 流量 的 地 域 来 源 、 用 户 访问 网 站 
的 高 频 设 备 和 操作 系统 、 用 户 完成 特定 行为 (这 里 一 般 指 某 种 目标 ， 比 如 订阅 邮件 列表 、 
注册 新 账户 、 加 入 购物 车 ) 的 通常 路 径 等 。 有 了 点 击 数据 和 市 场 推广 信息 ， 你 便 可 以 进 
行进 一 步 的 分 析 ， 比 如 分 析 各 个 营销 渠道 (自然 检索 、 付 费 搜索 、 社 交 媒 体 支 出 等 ) 的 
投资 回报 率 (Return On Investment，ROI)。 另 外 ， 还 可 以 将 点 击 数据 与 操作 数据 存储 层 
(Operational Data Store，ODS) 或 客户 关系 管理 系统 (Customer Relationship Management， 
CRM) 数据 相关 联 ， 基 于 更 丰富 的 用 户 信息 次 入 研究 。 

本 章 以 点 击 流 数 据 为 例 ， 讲 解 如 何 将 第 一 部 分 中 的 各 种 工具 结合 在 一 起 ， 但 是 本 章 涉 及 的 
各 个 概念 适用 于 任何 对 机 器 产生 的 数据 进行 批 处 理 的 系统 。 此 类 数据 包括 但 不 仅 限 于 以 下 
几 种 : 广告 展示 数据 、 性 能 或 其 他 日 志 ， 还 有 网 络 日 志 及 通信 上 日志。 


8.1 用 例 场景 定义 


假设 你 是 出 售 自行 车 部 件 的 网 络 零售 商 。 用 户 可 以 访问 你 的 网 站 ， 浏 览 自 行车 的 零 部 件 、 
浏览 评论 ， 还 可 以 下 单 付款 。 你 的 网 站 程序 会 将 用 户 的 页 面 浏 览 和 链接 点 击 全 部 记录 到 日 
志 中 。 一 般 情况 下 ， 网 站 产生 的 是 纯 文本 的 Apache 或 Nginx 日 志 ， 有 些 时 候 点 击 日 志 是 
网 络 分 析 工 具 通 过 跟踪 网 站 形成 的 定制 化 的 日 志 。 但 无 论 怎样 ， 点 击 日 志 会 严格 按照 时 间 
性 进行 追加 。 
作为 网 络 零售 商 ， 你 肯定 想 更 加 了 解 自己 的 用 户 群 ， 想 进行 营销 和 市 场 方面 的 优化 。 为 了 
达成 这 样 的 目标 ， 你 需要 回答 如 下 问题 。 
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。 上 个 月 我 的 网 站 上 有 多 少 页 面 浏览 量 (Page View，PV) ? 环比 增长 率 如 何 ? 

。 上 个 月 我 的 网 站 上 有 和 多少 独立 访客 数 (Unique Visitor，UV) ? 环比 增长 率 如 何 ? 

。 访客 购物 时 的 平均 停留 时 间 有 多 长 ? 

。 网 站 的 跳出 率 (bounce rate) 是 多 少 ? 换 名 话说， 有 多 少 用 户 打开 本 网 站 后 尚未 跳 转 至 
其 他 页 面 便 已 结束 访问 ? 

。 对 于 每 个 页 面 ， 新 用 户 登 录 并 在 会 话 中 发 生 购 买 行为 的 概率 是 多 少 ? 

。 对 于 每 个 页 面 ， 新 用 户 登录 并 在 七 天 内 发 生 购 买 行为 的 概率 是 多 少 ? 

。 购买 行为 是 通过 哪 一 种 营销 渠道 (直接 访问 、 自 然 检 索 、 付 费 搜索 等 ) 发 生 的 ? 

想 要 回答 以 上 乃至 更 多 的 问题 ， 则 需 扫 描 、 处 理 和 分 析 Web 服务 器 记录 的 日 志 。 

为 便于 后 续 讨 论 ， 我 们 假定 网 络 日 志 均 以 最 常见 的 格式 出 现 ， 即 组 合 日 志 格 式 (combined 

log format) 。 此 类 格式 中 的 每 一 条 日 志 恬 如 下 所 示 (注意 : 限于 排版 和 篇 幅 ， 如 下 示例 会 

在 多 行 呈现 ， 但 实际 情况 下 ， 一 条 日 志 记录 即 为 连续 的 一 行 )。 


127.0.0.1 - frank [10/0ct/2000:13:55:36 -0700] "GET / 
apache_pb.gif HTTP/1.0" 200 2326 "http://www.example.com/start.html" 
"Mozilla/4.08 [en] (Win98; I ;Nav)" 


以 上 日 志 有 具体 包含 以 下 部 分 。 
。 127.0.0.1 
此 处 是 源 全 地 址 ( 即 发 生 点 击 的 设备 的 全 地 址 )。 









































第 二 个 字段 在 例子 中 使 用 连 字符 表示 ， 它 一 般 指 客户 端 标识 。 实 际 情况 下 我 们 通常 认为 
这 不 可 信 ， 而 且 会 直接 被 服务 端 忽略 。 
。 frank 
如 果 需 要 的 话 ， 在 此 处 写 明 用 户 名 ， 即 HTTP 认证 的 身份 标识 。 
。 10/0ct/2000:13:55:36 -0700 
该 字段 记录 服务 完成 处 理 请 求 的 时 间 ， 并 带 有 时 区 。 
。 GET /apache_pb.gif HTTP/1.0 
该 字段 表示 请 求 的 类 型 ， 以 及 客户 端 请 求 的 页 面 。 





。 200 
此 处 是 Web 服务 器 返回 给 客户 端的 状态 标识 码 。 
。 2326 





该 字段 表示 返回 给 客户 端的 对 象 大 小 ， 不 包括 响应 报 文 头 部 的 大 小 。 
。 http://www.example.com/start.html 


如 果 需 要 的 话 ， 用 该 字段 代表 引用 地 址 (车 存在 )， 即 引导 用 户 进入 当前 地 址 的 上 一 
地 址 。 


。 Mozilla/4.08 [en] (Win98; I ;Nav) 
本 字段 是 用 户 代理 字符 串 ， 能 够 标识 发 生 点 击 行为 的 设备 具有 的 浏览 器 和 操作 系统 。 
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8.2 使 用 Hadoop 进 4 于 点击 流 分 析 


一 个 活跃 的 站 点 每 天 能 够 产生 数 GB 的 数据 。 存 储 和 分 析 如 此 庞大 的 数据 需要 一 个 十 分 健 
壮 的 分 布 式 系统 。 男 外 ， 日志 数据 的 生成 是 非常 迅速 的 。 通 常情 况 下 ,日 志 在 一 天 其 至 一 
个 小 时 之 内 需 ;要 多 次 轮转 更 赫 。 这 是 因为 分 析 人 员 想 要 尽早 知道 最 新 的 变化 与 总 体 的 趋 
势 。 此 外 ,日 志 数 据 是 半 结 构 化 的 ， 一 条 日 志 记 录 可 能 有 需要 解析 的 用 户 代理 字符 串 ， 也 
可 能 有 新 增 或 者 不 久 便 会 移 除 的 字段 ， 如 测试 用 的 参数 。 考 虑 到 这 些 特点 ，Hadoop 仍 不 
失 为 一 个 点 击 流 分 析 的 利器 。 


本 章 会 展示 如 何 使 用 Apache Hadoop 及 生态 圈 中 相关 的 其 他 项 目 ， 构 建 一 个 能 够 对 点 击 流 
数据 进行 收集 、 处 理 和 分 析 的 应 用 。 


8.3 设计 概述 


我 们 将 此 案例 的 整体 架构 分 为 五 大 部 分 : 数据 存储 、 数 据 采集 、 数 据 处 理 、 数 据 分 析 及 协 
调调 度 。 


。 数据 存储 模块 对 存储 系统 (如 HDFS 或 HBase)、 数 据 格式 、 压 缩 算法 以 及 数据 模型 等 
进行 技术 选 型 。 

。 数据 采集 模块 从 网 络 服务 器 或 二 级 数据 源 (如 CRM、ODS、 市 场 推广 数据 ) 等 获取 点 
击 流 数 据 ， 并 将 其 加 载 到 Hadoop 中 竺 处 理 。 

。 数据 处 理 模块 将 原始 数据 导入 Hadoop， 并 对 其 进行 转换 加 工 ， 形 成 支持 分 析 和 查询 的 
数据 集 。 此 处 的 处 理 一 词 包括 但 不 仅 限 于 以 下 内 容 : 数据 去 重 、 去 除 无 效 点 击 、 将 点 
击 数据 转化 为 列 式 存储 格式 、 生 成 会 话 〈 通 过 关联 每 次 点 击 中 代表 这 次 访问 的 会 话 ID， 
将 单个 用 户 单 次 访问 的 多 个 点 击 过 程 合 并 ) 及 聚合 等 。 

。 数据 分 析 模块 在 预 处 理 后 的 数据 集 上 进行 各 种 分 析 类 的 查询 ， 以 找到 本 章 前 面 提 到 的 问 
题 的 答案 。 

。 协调 调度 模块 自动 组 织 和 协调 进行 数据 采集 、 处 理 、 分 析 的 各 个 过 程 。 


图 8-1 展示 了 这 一 设计 的 整体 规划 。 


我 们 的 设计 实现 将 采用 HDFS 作为 数据 存储 ， 使 用 Flume 收集 Apache 日 志 ， 使 用 Sqoop 
将 其 他 的 二 级 数据 源 (如 CRM、ODS、 市 场 推广 数据 ) 导入 Hadoop。 我 们 还 将 采用 
Spark 进行 预 处 理 ， 采 用 Impala 分 析 处 理 后 的 数据 。 将 BI 工具 连接 到 Impala 之 后 ， 我 们 
就 能 够 在 这 些 数 据 上 进行 交互 式 的 查询 。 我 们 还 将 使 用 Oozie 协调 调度 多 个 操作 ， 使 其 成 
为 一 个 完整 的 工作 流 。 
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图 8-1: 设计 概览 


接 下 来 介绍 设计 方案 的 具体 内 容 ， 包 括 文件 格式 与 数据 模型 的 选 型 、 使 用 Web 应 用 将 点 击 
流 信息 发 送 到 Flume 中 、 配 置 Flume 将 这 些 数据 存储 成 文本 格式 等 细节 。 我 们 还 会 讨论 这 


里 涉及 的 各 种 处 理 算法 〈 尤 其 
SQL-on-Hadoop 



































是 会 话 生成 算法 及 其 实现 方式 )， 如 何 使 用 Impala (或 其 他 
工具 ) 在 海量 数据 集 上 进行 高 效 的 聚合 操作 。 我 们 也 将 在 合适 的 地 方 讲解 





























数据 的 自动 处 理 (如 数据 采集 、 数 据 加 工 等 )。 


候选 工具 ， 并 讲述 选择 的 理由 。 
接 下 来 我 们 会 逐个 讲解 上 面 提 到 的 设计 。 


8.4 数据 存储 














另外 ， 我 们 还 会 比较 方案 中 选择 的 工具 与 


正如 前 面 提 到 的 ， 我 们 的 应 用 程序 将 使 用 Flume 来 收集 原始 数据 ， 进 行 若 干 步 转换 操作 ， 
生成 清洗 后 的 更 加 丰富 的 数据 集 ， 以 供 数 据 分 析 使 用 。 迈 出 这 一 步 之 前 ， 首 先 需 要 确定 原 


始 数 据 、 

















数据 转换 中 间 结 果 及 最 终 数据 集 的 存储 方式 。 由 于 这 几 类 数据 集 面 向 的 需求 不 


同 ， 我 们 希望 最 终 确 定 的 存储 选 型 ， 即 数据 格式 及 数据 模型 ， 能 满足 数据 集 的 需要 。 
首先 ， 由 Flume 采集 到 的 原始 数据 以 纯 文 本 的 格式 存储 至 HDFS 中 。 我 们 之 所 以 选择 


HDFS 是 


因为 后 续 的 数据 加 工 需要 对 多 种 记录 进行 批量 转换 操作 。 正 如 前 面 章节 提 到 的 ， 








对 于 扫描 大 数据 集 这 样 的 批 处 理 操作 ，HDFS 的 性 能 不 错 。 我 们 之 所 以 选择 文本 格式 ， 是 
因为 该 格式 处 理 简单 ， 对 任何 日 志 类 型 均 通用 ， 且 不 需 在 Flume 进行 额外 的 处 理 。 
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但 是 ， 我 们 对 处 理 后 的 海量 数据 进行 聚合 查询 和 分 析 时 ， 通 常 只 涉及 一 部 分 列 。 分 析 类 的 
查询 通常 需要 扫描 一 个 月 的 数据 ， 最 少 也 得 扫描 一 天 的 数据 。 出 于 数据 扫描 性 能 的 考虑 ， 
这 里 的 确 应 该 使 用 HDFS。 许 多 分 析 类 查询 每 次 执行 时 只 会 选择 一 部 分 列 的 数据 ， 因 此 ， 


对 于 处 到 
存储 处 到 
































后 的 数据 ， 最 好 选择 一 种 列 式 存储 格式 。 我 们 使 用 的 列 存储 格式 是 Parquet， 用 来 
(如 生成 会 话 ) 后 待 分 析 的 数据 。 考 虑 到 Snappy 算法 对 CPU 性 能 有 所 提升 ， 我 


们 还 会 使 用 该 算法 对 处 理 后 的 数据 进行 压 第 关于 所 有 文件 类 型 和 压缩 格式 的 讨论 ， 及 最 
优 文件 的 选择 方法 ， 参 见 第 1 章 。 


我 们 计划 长 期 存储 原始 数据 ， 而 不 是 处 理 后 便 将 其 删除 。Hadoop 应 用 的 设计 通常 都 是 如 


此 。 





























这 样 做 有 以 下 几 点 好 处 。 
在 ETL 过 程 中 ， 如 果 出 现 bug 或 失败 ， 数 据 的 重新 处 理会 更 为 容易 。 











先前 由 原始 数据 生成 处 理 后 的 数据 集 时 ， 我 们 可 能 忽略 掉 了 一 些 有 意思 的 特征 。 保 留 原 
始 数据 ， 可 以 直接 对 其 进行 分 析 。 另 外 ， 设 计 ETL 流水 线 时 需要 浏览 原始 数据 ， 决 定 


将 哪些 特征 包 

















含 到 处 理 后 的 数据 集中 ， 所 以 这 对 于 数据 发 现 和 探索 是 有 意义 的 。 


出 于 审计 的 考虑 ， 保 留 原 始 日 志 也 是 很 有 意义 的 。 


我 们 将 采用 1.2 市 中 提 到 的 目录 结构 来 存储 数据 集 。 因 为 分 析 是 基于 “天 ”级 别 (一 天 或 
者 多 天 ) 的 ， 所 以 我 们 决定 按照 日 期 对 点 击 数据 进行 分 区 ， 叶 子 市 点 的 分 区 对 应 某 一 天 的 
点 击 数 据 。 对 于 点 击 数据 ， 以 下 是 存储 原始 数据 和 处 理 后 数据 的 目录 结构 。 


/etl/BI/casualcyclist/rawlogs/year=2014/month=10/day=10 

该 路 径 对 应 的 是 原始 数据 集 ， 直 接 由 Flume 产生 。 
/data/bikeshop/clickstream/year=2014/month=10/day=10 

该 路 径 对 应 的 是 处 理 后 的 数据 集 ， 即 直接 供 分 析 所 用 ， 已 去 除 噪声 的 会 话 数据 集 。 
如 你 所 见 ， 我 们 使 用 了 三 级 (年 、 月 、 日 )， 对 以 上 两 类 数据 按照 日 期 进行 了 分 区 。 


处 理 后 的 数据 集 大 小 


处 至 




















后 的 数据 集 一 般 比 原始 数据 集 要 小 一 些 。 如 果 处 理 后 的 数据 集 以 更 为 方 





便 压 缩 的 格式 (如 Parquet 这 样 的 列 式 存储 格式 ) 进行 存储 ， 则 更 是 如 此 。 
于 是 ， 叶 子 节 点 分 区 的 平均 大 小 (如 代表 一 天 数据 的 分 区 ) 可 能 太 小 ， 不 能 


充 2 


少 是 














分 利用 Hadoop。 正 如 第 1 章 中 提 到 的 那样 ， 每 个 分 区 的 平均 大 小 应 当 至 
HDFS 块 大 小 (默认 HDFS 块 大 小 为 64MB) 的 几 倍 ， 这 样 才能 更 好 地 











利用 Hadoop 的 处 理 能 力 。 如 果 发 现 处 理 后 的 数据 集中 每 个 天 级 分 区 较 小 ， 
那么 最 好 不 要 使 用 天 级 分 区 ， 只 保留 年 和 月 两 级 分 区 即 可 。 原 始 数据 可 以 仍 
选择 年 、 月 、 日 三 级 分 区 的 形式 。 














x 

















在 本 章 其 余 的 内 容 中 ， 我 们 假定 处 理 后 的 数据 集中 ， 天 级 分 区 足够 大 ， 数 据 以 三 级 分 区 的 
形式 呈现 。 


另外 ， 你 可 





能 看 到 过 这 样 一 种 一 级 分 区 模式 ， 形 如 dt=2014-16-10， 而 不 是 使 用 三 级 分 区 模 





od enh 40 da ee 
处 理 后 的 数据 均 只 需 拥 有 一 个 分 区 列 (一 个 类 型 为 string 的 : dt 列 )， 而 不 是 三 个 分 区 列 
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( 列 名 为 year、month、day 的 三 个 int 类 型 的 列 ) 。 一 级 分 区 模式 使 得 总 分 区 数 减少 ， 即 便 
叶 分 区 数 等 于 总 分 区 数目 。 分 区 更 少 ， 存 储 的 逻辑 元 数据 信息 也 就 更 少 ， 这 意味 着 使 用 访 
问 元 数据 的 Hive、HCatalog 和 Impala 进行 该 数据 集 上 的 查询 ， 性 能 可 能 会 稍 有 提升 。 但 
是 ,一 级 分 区 模式 与 三 级 分 区 模式 相 比 ， 前 者 查询 时 的 灵活 性 更 差 。 举 例 来 说 ， 如 果 在 带 
有 三 级 分 区 的 数据 集 上 进行 年 级 别 的 分 析 的 话 ， 我 们 可 以 简单 地 指定 WHERE year=2014， 而 
不 是 WHERE dt LIKE '2014-%' 。 


不 过 就 天 级 数据 来 看 ， 二 者 均 是 合理 的 分 区 模式 ， 使 用 起 来 也 基本 没有 差别 。 你 可 以 根据 
篇 好 和 风格 选择 其 中 一 个 。 本 章 将 使 用 三 级 分 区 模式 。 


图 8-2 和 图 8-3 分 别 展 示 了 三 级 分 区 模式 和 一 级 分 区 模式 。 


















































图 8-2: 三 级 分 区 模式 





dt=‘2014-01-01 














图 8-3: 一 级 分 区 模式 
想 要 了 人 解 更 多 关于 HDFS 和 Hive 模式 设计 的 内 容 ， 请 参考 《Hive 编程 指南 》。 


8.5 数据 采集 


正如 我 们 在 第 2 章 中 提 到 的 那样 ， 就 导入 数据 到 Hadoop 而 言 ， 我 们 有 多 种 方式 。 下 面 就 
我 们 的 架构 来 评估 这 些 工 具 ， 了 解 它们 是 否 符合 我 们 的 需求 。 
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日 


文件 传输 

该 方式 适合 一 次 性 的 文件 传输 ， 对 于 海量 点 击 流 数 据 的 采集 并 不 可 靠 。 

Sqoop 

Sqoop 是 数据 导入 和 导出 至 外 部 存储 (如 关系 型 数据 库 管理 系统 ) 的 利器 。 很 明显 ， 
Sqoop 并 不 适合 用 于 日 志 数 据 采集 。 

Kafka 

正如 第 2 章 中 讨论 的 ，Kafka 的 架构 决定 了 它 是 将 海量 日 志 数 据 从 网 络 服务 器 移动 到 各 
种 消费 者 (包括 HDFS) 的 优秀 可 靠 方案 。 因 此 ， 我 们 将 其 作为 架构 中 数据 采集 选 型 的 
重要 候选 之 一 。 

Flume 

类 似 于 Kafka， 将 海量 事件 类 型 数据 (如 日 志 ) 移动 至 HDFS 时 ，Flume 也 是 一 个 优秀 
可 靠 的 选择 。 


























志 采 集 的 候选 项 正 是 Kafka 和 Flume。 二 者 均 提 供 了 我 们 所 需要 的 可 靠 可 扩展 日 志 数 据 


采集 功能 。 我 们 的 应 用 场景 具 需 将 日 志 数 据 加 载 到 HDFS 中 ， 所 以 这 里 选择 Flume， 因 为 
它 是 面向 HDFS 的 。 它 内 置 了 写 HDFS 的 模块 ， 这 意味 着 我 们 不 需 做 任何 定制 化 的 开发 ， 
就 可 以 直接 搭建 Flume 流水 线 。Flume 还 支持 拦截 器 机 制 ， 支 持 数 据 的 基本 变换 ， 比 如 过 
滤 搜索 候 虫 的 无 效 点 击 。 而 且 ， 这 种 变换 是 在 数据 采集 后 、 写 入 HDFS 之 前 完成 的 。 


如 果 需 要 建设 一 个 更 加 通用 的 流水 线 ， 并 使 其 支持 除了 HDFS 以 外 的 多 种 数据 持久 化 方 
式 ， 我 们 则 会 考虑 Kafka。 


既然 已 经 确定 了 数据 采集 的 工具 ， 下 面 我 们 讨论 一 下 将 数据 导入 Flume 流水 线 的 一 些 选项 。 














如 果 网 络 服 务 器 是 用 Java 语言 编写 的 ， 并 且 使 用 Log4j 记录 日 志 ， 那 么 我 们 可 以 使 用 
Flume Log4j 输出 将 数据 发 送 给 Flume 的 Avro 数据 源 。 这 是 将 事件 数据 发 送 到 Flume 
的 最 简 方式 ， 只 需 将 一 个 文件 (fume-ng-sdk*.jar) 加 入 应 用 环境 的 Classpath 中 ， 并 对 
Log4j 的 配置 文件 稍 作 修改 即 可 。 不 过 ， 在 本 例 中 ， 我 们 使 用 的 网 络 服务 器 是 一 个 第 三 
方 的 应 用 程序 ， 我 们 无 法 修改 其 代码 ， 或许 它 并 不 是 用 Java 语言 编写 的 ， 所 以 Log4j 
输出 并 不 适合 当前 场景 。 

对 于 当前 这 种 Log4j 输出 并 不 适合 的 应 用 场景 ， 还 是 有 其 他 一 些 不 错 的 选择 。 你 可 以 
用 Avro 数据 源 或 Thrift 数据 源 分 别 给 Flume 发 送 Avro 或 Thrift 消息 。Flume 也 可 以 从 
JMS 消息 队列 中 将 消息 拉 取 出 来 。 另 外 一 个 办 法 是 向 HITP 数据 源 发 送 JSON 格式 的 消 
息 。 选 取 哪 种 方式 集成 Fume， 取 决 于 你 使 用 的 应 用 框架 。 这 里 有 多 种 集成 方式 可 供 选 
择 ， 便 于 Flume 与 已 有 的 架构 更 好 地 融合 。 举 例 来 说 ， 如 果 你 原本 就 会 把 事件 发 送 到 
JMS 队列 中 ,那么 就 直接 集成 Flume 去 队列 中 拉 取 数据 。 如 果 你 之 前 并 未 使 用 JMS 队列 ， 
也 没 必要 为 集成 Flume 引入 它 ， 还 有 其 他 的 选项 可 供 选 择 。 以 上 这 些 都 不 适合 通过 磁盘 
读 取 日 志 的 应 用 场景 。 

Flume 提供 了 Syslog 数据 源 ， 这 种 数据 源 能 够 从 Syslog 数据 流 中 读 取 事件 ， 并 将 其 转 
化 成 Flume 事件 。Syslog 是 系统 日 志 采 集 和 移动 的 标准 化 工具 。Apache HTTP 服务 器 支 
持 将 日 志 输 出 到 Syslog 中 ， 不 过 仅 限 错误 级 别 的 日 志 。 要 将 访问 日 志 页 发 送 到 Syslog， 
你 需要 一 个 变通 方案 ， 比 如 借助 管道 对 访问 日 志 重 定向 。 
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。 我 们 的 应 用 场景 针对 一 个 第 三 方 的 Web 应 用 ， 无 法 通过 修改 应 用 来 灵活 地 定制 化 输 


出 点 击 流 数据 ， 又 需要 处 理 已 经 存储 到 磁 





盘 上 的 日 志文 件 。 我 们 来 关注 一 下 Flume 的 








Spooling Directory Source。 它 从 一 个 目录 中 读 取 文 件 ， 并 将 文件 中 的 每 一 行 转换 成 一 
个 Flume 事件 。 注 意 ， 在 网 络 上 流传 着 一 些 使 用 exec 数据 源 读 取 日 志文 件 尾 部 的 做 法 。 
这 不 是 一 个 可 靠 的 解决 方案 ， 很 不 可 取 。 直 接 读 取 日 志文 件 尾 部 ， 上 一 次 读 到 的 具体 位 
置 不 会 记录 。Flume 程序 骨 溃 会 导致 多 读 或 者 少 读 一 些 ， 这 两 种 情况 都 是 我 们 不 希望 看 
到 的 。 相 比 之 下 ，Spooling Directory Source 只 读 取 已 经 关闭 的 完整 文件 ， 所 以 在 遇 到 失 
败 的 情况 下 ， 它 会 重 试 整个 文件 并 标记 为 成 功 ， 从 而 保证 不 会 采集 两 次 。 对 于 从 磁盘 上 





采集 数据 来 讲 ， 这 是 一 个 更 为 可 靠 的 方案 。 
我 们 已 经 选 定 了 生成 事件 到 Flume 流水 线 的 








数据 产 ， 接 下 来 需要 考虑 一 个 合适 的 Flume 


Channel 承接 上 一 步 数 据 。 正 如 第 2 章 中 提 到 的 那样 ， 如 果 性 能 比 稳定 性 更 为 重要 ， 那 么 


Memory Channel 就 是 最 好 的 选择 。 如 果 稳 定 4 





生 更 为 重要 则 应 当选 择 File Channel。 对 于 本 








章 的 例子 ， 稳 定性 是 非常 重要 的 。 在 流量 高 峰 时 ，Memory Channel 可 能 会 丢失 部 分 点 击 ， 








选用 File Channel。 





当 站 点 负载 较 高 时 ， 也 可 能 出 现 这 类 数据 丢失 问题 。 因 此 ， 我 们 在 Flume 分 层 选 型 时 ， 均 


显然 ， 我 们 要 把 数据 存储 到 HDFS 上 ， 因 此 要 采用 HDFS Sink。 另 外 ， 为 了 更 加 清晰 地 了 
解 处 理 过 程 ， 我 们 将 数据 存储 为 纯 文本 。 数 据 会 按照 各 自 的 时 间 蕉 存储 在 HDFS 上 的 不 同 
目录 内 。 后 面 深 入 了 解 采集 层 的 架构 时 ， 我 们 会 继续 讨论 更 多 细节 。 按 照 日 期 和 时 间 进 行 
分 区 的 方式 能 够 减少 数据 处 理 时 的 磁盘 HO， 使 数据 处 理 任务 更 加 高 效 。 

现在 我 们 已 经 确定 了 数据 采集 层 的 架构 ， 下 面 来 深入 了 解 一 下 Flume 流水 线 的 架构 。 我 们 
首先 看 一 下 整个 顶层 视图 ， 再 来 认识 流水 线 中 每 层 的 具体 配置 细节 。 图 8-4 展示 了 我 们 的 
采集 工作 流 的 顶层 视图 。 在 这 个 流程 中 ， 你 会 看 到 ， 我 们 采用 的 是 局 入 的 模式 (第 2 章 中 
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图 8-4: Flume 采集 架构 的 整体 视图 
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在 图 8-4 中 ， 整 个 流水 线 主要 分 成 了 三 层 。 

。 客户 误导 
本 章 示例 中 ， 客 户 端 层 (client tier) 由 产生 日 志 的 网 络 服务 器 构成 。 这 些 日 志 需 要 采集 到 
HDFS 中 ， 以 便 按照 要 求 对 其 进行 分 析 。 此 处 需要 注意 的 是 ， 每 个 网 络 服务 器 的 主机 上 都 
有 一 个 Flume agent， 承 担 着 获取 网 络 服务 器 产生 的 日 志 事 件 ， 并 发 送 到 收集 器 层 的 责任 。 

。 收集 器 层 
收集 器 层 (collector tier) 的 主机 能 汇聚 从 客户 端 层 发 过 来 的 事件 ， 并 传递 到 最 终 的 目 
的 地 ， 即 HDFS。 本 章 的 例子 假定 收集 器 层 的 agent 在 集群 的 边缘 节点 上 运行 这 些 
节点 在 集群 网 络 之 中 ， 它 们 拥有 Hadoop 的 客户 端 配置 ， 能 够 访问 Hadoop 集群 并 提交 
Hadoop 命令 、 向 HDFS 写 数据 等 。 

。 HDFS 层 
这 是 数据 的 最 终 目 的 地 。 收 集 器 层 的 Flume agent 承担 着 将 事件 持久 化 到 HDFS 文件 的 

只 责 。 作 为 持久 化 操作 的 一 部 分 ，Flume agent 要 进行 配置 ， 以 确保 HDFS 上 文件 的 分 

区 以 及 文件 名 正确 无 误 。 

在 如 上 配置 中 ，Flume agent 在 网 络 服务 器 和 收集 器 层 上 和 运行。 注意 : 我 们 不 在 HDFS 节点 

上 运行 Flume agent， 收 集 器 层 的 agent 会 使 用 Hadoop 客户 端 将 事件 写 入 HDFS。 

正如 第 2 章 中 提 到 的 ， 这 种 局 入 式 的 架构 设计 有 如 下 好 处 。 

。 克 许 控制 连接 到 集群 的 Flume agent 数目 。 如 果 我 们 的 网 络 服务 器 屈指 可 数 ， 那 么 将 服 
务 器 的 agent 直接 连 到 集群 中 可 能 不 会 带 来 什么 问题 。 但 是 如 果 有 成 千 上 百 台 服务 器 连 
到 集群 ， 就 会 引发 集群 的 资源 问题 。 

。 该 架构 能 够 利用 收集 器 层 节 点 较 大 的 本 地 磁盘 空间 缓存 事件 ， 缓 解 网 络 服务 器 磁盘 空间 
紧张 的 问题 。 

。 负载 能 够 在 多 个 收集 器 agent 之 间 进 行 均衡 。 如 果 一 个 或 多 个 收集 器 agent 意外 退出 ， 
该 架构 还 可 以 支持 事件 采集 的 故障 恢复 。 

接 下 来 ， 我 们 来 关注 Flume 流水 线 中 各 个 层次 的 更 多 细节 。 


8.5.1 客户 端 层 


8-5 描述 客户 端 层 Flume agent 的 具体 细节 。 
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下 面 介 绍 客户 端 层 Flume agent 的 各 个 组 件 。 
。 数据 源 
数据 源 即 指 进入 Flume 流水 线 的 事件 ， 也 就 是 本 例 中 的 Apache 日 志 记 录 。 正 如 前 面 提 
到 的 ， 本 章 示例 中 使 用 的 是 Spooling Directory Sourcee， 所 以 我 们 会 从 每 个 网 络 服务 器 的 
特定 目录 上 拉 取 数据 源 。 
。 Flume 数据 源 
此 处 的 Flume 数据 源 即 为 Spooling Directory Source， 能 够 读 取 磁 盘 的 特定 目录 下 要 采集 
的 文件 ， 并 将 其 转化 为 事件 ， 还 会 在 处 理 完 事件 后 重 命名 文件 。 
。 时 间 稚 拦截 器 
该 拦截 器 的 作用 是 向 每 个 Flume 事件 的 头 部 插入 一 个 时 间 惟 。 后 面 的 HDFS Sink 会 用 
到 该 时 间 戳 ， 从 而 保证 按照 日 期 分 区 存储 结果 文件 。 
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。 Channel 
出 于 稳定 性 考虑 ， 我 们 使 用 File Channel 作为 Flume Channel。 
。 Avro Sink 





此 处 的 Avro Sink， 再 加 上 后 面 的 Avro 数据 源 ， 为 Flume 客户 端 层 之 间 的 事件 传输 提供 
了 一 个 序列 化 机 制 。 此 处 需要 注意 的 是 ， 之 前 我 们 提 到 的 故障 恢复 (failover) 功能 就 
是 通过 设置 多 个 Sink 来 保证 的 ， 并 且 由 一 个 支持 负载 均衡 (load balancing) 的 Sink 组 
实现 在 所 有 可 用 Sink 之 间 的 负载 分 发 。 


选择 Flume 的 Avro 数据 源 关 平 通过 HDFS Sink 存储 到 HDFS 上 的 文件 格式 。 
正如 第 1 章 中 提 到 的 那样 ，Avro 是 一 种 序列 化 格式 ， 可 用 于 进程 间 的 数据 传 
输 及 文件 系统 (如 HFDS) 的 数据 存储 。 例 子 中 的 Avro Sink 与 Avro 数据 源 
就 扮演 着 这 样 一 种 角色 ， 序 列 化 传输 过 程 中 的 事件 数据 。 以 什么 格式 将 点 击 
数据 存储 到 HDFS 中 ， 取 决 于 最 终 的 Flume Sink。 












































下 面 是 用 于 客户 端 层 的 Flume agent 的 配置 文件 示例 。 该 配置 文件 将 部 署 到 所 有 的 网 络 服 
务 器 上 。 


# 定义 客户 端 层 数据 源 为 Spooling Directory Source: 
client.sources=r1 

client.sources.r1.channels=ch1 
client.sources.r1.type=spooldir 
client.sources.r1.spoolDir=/opt/Weblogs 

# 使 用 时 间 惟 拦截 右 向 所 有 的 事件 头 部 添加 时 间 惟 : 
client.sources.r1.interceptors.i1.type=timestamp 
client.sources.r1.interceptors=i1 

# 定义 客户 端 层 的 Channel 为 File Channel: 
client.channels=ch1 
client.channels.ch1.type=FILE 

# 定义 客户 端 层 的 Sink 为 两 个 Avro Sink: 
client.sinks=k1 k2 

client.sinks.k1.type=avro 
client.sinks.k1.hostname=collector1.hadoopapplicationarch.com 
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# 发 送 数据 前 配置 其 压缩 : 
client.sinks.k1.compression-type=deflate 
client.sinks.k1.port=4141 

client.sinks.k2.type=avro 
client.sinks.k2.hostname=collector2.hadoopapplicationarch.com 
client.sinks.k2.port=4141 
client.sinks.k2.compression-type=deflate 
client.sinks.k1.channel=ch1 

client.sinks.k2.channel=ch1 

# 定义 一 个 负载 均衡 的 Sink 组 ,以 保证 在 收集 器 层 的 多 个 节点 间 能 够 分 散 负载 : 
client.sinkgroups=g1 

client.sinkgroups.g1.sinks=k1 k2 
client.sinkgroups.g1.processor.type=load_balance 
client.sinkgroups.g1.processor.selector=round_robin 
client.sinkgroups.g1.processor .backoff=true 








8.5.2 ”收集 器 层 


8-6 所 示 为 收集 器 层 的 Flume agent 的 具体 细节 。 
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下 面 介绍 收集 器 层 Flume agent 的 各 个 组 件 。 

。 Avro 数据 源 
我 们 在 讨论 Avro Sink 的 时 候 就 提 到 过 ， 此 处 的 Avro 数据 源 就 是 数据 在 客户 端 层 序列 
化 后 ， 到 收集 器 层 进 行 反 序列 化 的 “关键 一 跳 ”。 

。 Channel 
此 处 我 们 还 是 选择 使 用 File Channel 作为 Flume Channel， 以 确保 事件 在 传递 过 程 中 的 可 
靠 性 。 为 了 进一步 提高 整体 的 可 靠 性 ， 你 可 以 利用 集群 边缘 节点 上 的 多 块 磁盘 ， 详 情 参 
见 第 2 章 。 
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下 
集 器 


HDFS Sink 


到 了 Flume 流水 线 的 最 后 一 个 环节 ， 我 们 将 日 志 事 件 持久 化 到 HDFS。 值 得 注意 的 是 ， 
HDFS Sink 的 配置 使 用 hdfs.path、hdfs.fiLeprefix 以 及 hdfs.fiLeSuffix 等 参数 实现 
最 终 文件 按 日 期 分 区 和 文件 名 定义 。 配 置 这 些 参数 后 ， 最 终 文件 将 会 呈现 这 样 的 格式 : 





/Weblog/combined/YEAR/MONTH/DAY/combined.EPOCH_TIMESTAMP.log。 


男 外 ， 


这 里 要 用 到 纯 文本 文件 ， 应 设置 相应 的 HDFS Sink 文件 格式 参数 : hdfs.fileType= 


DataStream 及 hdfs .writeFormat=Text, 























层 的 集群 边缘 节点 上 。 
# 定义 收集 器 层 的 数据 源 为 Avro 数据 源 ; 


COLLector .sources=r1 

COLLector .sources.r1.type=avro 

COLLector .sources.rl.bind=0.0.0.0 

COLLector .sources.r1.port=4141 

COLLector .sources.rl.channeLs=ch1 

# 对 收 到 的 数据 进行 解压 缩 : 
collector1.sources.r1.compression-type=deflate 

# 定义 收集 器 层 的 Channel 为 File Channel, 并 使 用 多 块 磁盘 以 提高 可 靠 性 : 
collector .channeLs=ch1 

collector .channels.ch1.type=FILE 

collector .channeLs.ch1.checkpointDir=/opt/fLume/ch1/cp1,/opt/fLume/ch1/cpt2 
collector .channeLs.ch1.dataDirs=/opt/fLume/ch1/datal,/opt/fLume/ch1/data2 
# 定义 收集 器 层 的 Sink 为 HDFS Sink, 保 证 将 事件 以 纯 文本 的 形式 写 到 磁盘 中 。 

# 注意 :为 分 散 负 载 ,配置 使 用 了 多 个 Sink: 

COLLector .sinks=k1 k2 

COLLector .sinks.k1.type=hdfs 

COLLector .sinks.kl. a 

# 按照 ee eh 
collector.sinks.k ee 
collector .sinks.k1.hdfs.fileprefix=combined 

collector .sinks.k1.hdfs.fileSuffix=.log 

collector .sinks.k1.hdfs.fileType=DataStream 

collector .sinks.k1.hdfs.writeFormat=Text 
collector.sinks.k1.hdfs.batchSize=10000 

# 对 HDFS 上 的 文件 ,满足 10 6006 条 事件 或 达到 30 秒 即 关闭 : 
collector.sinks.k1.hdfs.rollCount=10000 

collector .sinks.k1.hdfs.rollSize=0 
collector.sinks.k1.hdfs.rollInterval=30 
collector.sinks.k2.type=hdfs 
collector.sinks.k2.channel=ch1 

# 同样 按照 日 期 对 文件 进行 分 区 : 
collector.sinks.k2.hdfs.path=/Weblogs/combined/%Y/%m/%d 
collector.sinks.k2.hdfs.fileprefix=combined 

collector .sinks.k2.hdfs.fileSuffix=.log 

collector .sinks.k2.hdfs.fileType=DataStream 
collector.sinks.k2.hdfs.writeFormat=Text 
collector.sinks.k2.hdfs.batchSize=10000 
collector.sinks.k2.hdfs.rollCount=10000 
collector.sinks.k2.hdfs.rollSize=0 
collector.sinks.k2.hdfs.rollInterval=30 

collector .sinkgroups=g1 


IT 








区 











下 是 用 于 收集 器 层 的 Flume agent 的 配置 文件 示例 。 该 配置 文件 将 部 署 到 所 有 从 属于 收 
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COLLector .sinkgroups.g1.sinks=k1 k2 

COLLector .sinkgroups.g1.processor .type=Load_baLance 
COLLector .sinkgroups.g1.processor .seLector=round_robin 
COLLector .sinkgroups.g1.processor .backoff=true 


数据 采集 话题 的 讨论 即将 结束 ， 我 们 还 要 谈 一 下 二 级 数据 源 导 入 Hadoop 的 问题 。 如 果 你 
需要 关联 点 击 数据 与 CRM、ODS 或 其 他 类 似 系统 的 数据 ， 那 么 就 应 该 把 这 类 数据 从 二 级 
数据 源 导 入 到 Hadoop 中 。 具 体 的 导入 方式 取决 于 二 级 数据 源 的 数据 特征 。 本 章 假定 这 类 
数据 存储 在 传统 关系 型 数据 库 中 。 如 第 2 章 讨 论 的 那样 ， 要 将 数据 从 关系 型 数据 库 导 入 到 
Hadoop ，Sqoop 是 不 二 之 选 。 与 点 击 数据 相 比 ，CRM 和 ODS 数据 集 的 数据 量 很 小 ， 也 不 
会 像 点 击 数据 那样 暴 增 〈 甚 至 不 会 怎么 变化 ) 。 这 样 的 数据 特点 决定 了 它们 是 Sqoop 批 处 
理 任 务 的 理想 选择 ， 即 按照 一 天 一 次 或 一 天 几 次 的 频率 ， 将 数据 从 CRM 和 ODS 数据 库 
中 导入 到 Hadoop。 如 果 数 据 量 的 确 不 大 ， 简 单 删 掉 后 在 每 个 Sqoop 任务 中 重新 导入 即 可 。 
当然 ， 如 果 这 些 数据 的 数据 量 很 大 ， 就 应 该 使 用 Sqoop 进行 增 量 数据 导入 了 。 


8.6 ”数据 处 理 


图 8-7 展示 了 本 架构 设计 的 数据 处 理 部 分 。 
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生成 会 话 后 的 
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图 8-7: 数据 处 理 的 设计 


前 面 提 到 ， 点 击 数据 通过 Flume 进入 HDFS。 但 是 ， 来 自 网 络 服 务 器 的 原始 数据 是 需要 清 
洗 的 。 举 例 来 讲 ， 不 完整 和 无 效 的 日 志 行 就 需要 移 除 。 此 外 ， 还 可 能 存在 一 些 重复 的 日 
志 , 需要 数据 去 重 。 还 有 就 是 需要 根据 数据 生成 会 话 (如 赋予 每 个 点 击 唯 一 的 会 话 人 D)。 
另外 ， 有 时 还 要 对 这 份 数据 做 进一步 的 预 聚 合 或 预 分 析 ， 比 如 为 了 加 速 后 续 查 询 的 性 能 ， 
对 点 击 进行 天 级 别 或 小 时 级 的 聚合 、 上 卷 。 后 续 查 询 通常 会 涉及 市 场 投资 回报 率 、 贡 献 分 
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析 (attribution analysis) 的 计算 (关联 营销 消耗 数据 与 数据 )， 基 于 数据 源 的 一 些 额外 属性 
分 析 网 站 活跃 度 ( 需 将 CRM 或 其 他 数据 源 与 点 击 关联 )， 等 等 。 预 处 理 的 工作 需要 在 这 一 
部 分 完成 。 如 果 进 行 交 互 式 商业 智能 (Business Intelligence，BI) 分 析 时 还 需要 做 数据 预 
处 理 ， 你 就 会 陷 人 手忙脚乱 的 窘境 ， 这 绝对 不 是 大 家 希望 看 到 的 。 最 后 ， 我 们 希望 处 理 后 
的 数据 格式 在 查询 过 程 中 有 不 错 的 性 能 表现 。 


总 结 起 来 ， 对 于 数据 处 理 的 流水 线 ， 我 们 需要 达成 四 点 目标 。 


(1) 清洗 (sanitize) 和 检查 原始 数据 。 

(2) 从 原始 点 击 流 事 件 中 提取 (extract) 有 用 的 数据 。 

(3) 转换 (tranform) 提取 到 的 数据 ， 以 生成 处 理 后 的 数据 集 。 本 例 需 要 产 出 的 是 会 话 数 据 集 。 
(4) 将 结果 集 以 支持 高 性 能 查询 的 格式 加 载 (load) 或 存储 到 Hadoop 中 。 


你 也 许 已 经 注意 到 了 ， 除 了 第 一 点 的 数据 清洗 检查 ， 后 面 三 点 正好 对 应 一 个 ETL 流水 线 的 
提取 、 转 换 、 加 载 步骤 ， 这 也 解释 了 为 什么 要 使 用 Hadoop 代替 ETL。 


在 第 一 步 中 ， 我 们 首先 需要 移 除 不 完整 和 无 效 的 日 志 记 录 。 简 单 来 讲 ， 就 是 使 用 
MapReduce 或 者 Hive、Pig 这 样 的 工具 ， 确 保 每 条 记录 (如 一 行 日 志 ) 中 每 个 字段 均 已 填 
充 ， 同 时 还 可 以 对 某 些 字段 或 者 全 部 字段 做 一 个 快速 的 字段 内 容 有 效 性 验证 。 在 这 里 ， 检 
查 特定 的 耳 地 址 或 反 向 链接 可 以 忽略 一 些 垃圾 点 击 。 类 似 的 逻辑 可 以 添加 到 这 个 步 又 ,将 
对 应 的 点 击 忽 略 。 


接 下 来 对 日 志 记 录 进 行 去 重 。 由 于 选用 了 Flume 的 File Channel 采集 数据 ， 所 以 当 Flume 
agent 偶发 月 涡 时 ，Flume 可 以 保证 全 部 的 日 志 记 录 进 入 Hadoop。 但 是 ，Flume 不 能 保证 
所 有 的 日 志 记录 均 有 且 仅 有 一 条 ， 而 不 发 生 重复 。 一 个 Flume agent 的 月 并 会 导致 部 分 重 
复 的 日 志 记 录 产 生 ， 所 以 有 必要 对 它们 进行 去 重 。8.6.1 节 会 讲解 相关 内 容 。 


Hive、Pig、Spark 以 及 MapReduce 均 可 以 用 来 去 除 重 复数 据 。 其 中 ， 与 MapReduce 相 比 ， 
Hive 和 Pig 的 接口 更 高 一 层 ， 实 现 起 来 更 容易 ， 同 时 可 读 性 也 会 更 好 。 因 此 ， 这 里 推荐 使 
用 Hive 或 Pig 进行 数据 去 重 ， 二 者 镍 可。 究竟 选取 哪 一 个 ， 关 键 在 于 开发 者 的 技能 表 景 。 
你 需要 考虑 哪 一 个 与 团队 的 已 有 技术 选 型 相符 ， 与 其 他 项 目的 特定 要 求 相符 。 无 关 实 现 的 
具体 语言 ， 我 们 推荐 将 去 重 后 的 数据 首先 写 入 一 个 临时 表 中 ， 然 后 再 将 其 移动 到 最 终 表 ， 
以 避免 对 原始 数据 集 造 成 影响 。 

谈 到 提取 步 又， 我 们 将 时 间 融 ( 自 1970 年 1 月 1 日 0 时 0 分 0 秒 以 来 的 秒 数 )、5 引 用 URL 
地 址 、 用 户 代理 字符 串 (包含 浏览 器 和 操作 系统 版 本 )、IP 地 址 、 语 言及 URL 等 列 抽取 
出 来 。 之 所 以 选择 这 些 列 ， 是 因为 我 们 认为 基于 这 些 数据 分 析 结 果 ， 足 够 回答 本 章 一 开始 
提出 的 问题 。 如 果 后 续 的 分 析 会 用 到 所 有 的 列 ， 你 可 以 不 进行 过 滤 ， 直 接 将 所 有 的 列 提取 
出 来 。 

在 转换 步 又， 我 们 对 点 击 进行 会 话 生 成 处 理 ， 然 后 生成 一 个 新 的 会 话 数据 集 。 关 于 会 话 生 
成 的 更 多 内 容 ， 参 见 8.6.2 市 。 

对 于 来 自 ODS 或 CRM 的 二 级 数据 ， 一 般 不 需 对 其 进行 数据 清洗 ， 因 为 这 些 来 自 关 系 型 
数据 库 的 数据 一 般 是 正确 的 。 将 此 类 数据 直接 导入 HDFS 可 以 查询 的 位 置 即 可 。 目 录 结 构 
如 下 。 
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。 来 自 ODS 的 数据 存储 路 径 : /data/bikeshop/ods。 
。 来 自 CRM 的 数据 存储 路 径 : /data/bikeshop/crm。 


另外 ， 一 般 来 讲 ， 二 级 数据 的 数据 量 通常 较 小 ， 无 需 对 其 进行 分 区 。 


我 们 已 经 概括 性 地 描述 了 整个 数据 处 理 。 接 下 来 我 们 看 两 个 步 又 的 具体 细节 : 数据 去 重 与 
会 话 生成 。 


8.6.1 数据 去 重 
前 面 提 到 过 ， 如 果 一 个 Flume agent 发 生 崩 溃 ， 可 能 产生 某 些 重复 的 日 志 记 录 。 


采用 Hive、Pig、MapReduce 等 工具 可 以 进行 数据 去 重 。 与 MapReduce 相 比 ，Hive 和 Pig 
的 接口 更 高 一 层 ， 实 现 起 来 更 为 简单 易 读 ， 是 我 们 的 首选 。 使 用 Hive 的 话 ， 你 需要 为 原 
始 数据 创建 一 张 外 表 (external table) ， 并 为 去 重 后 的 数据 创建 另外 一 张 表 ， 便 于 后 续 使 用 。 
使 用 Pig 则 不 需 为 去 重 后 的 数据 建 表 。 重 申 一 下 ， 选 择 取 决 于 开发 者 的 技能 背景 。 你 要 考 
虚 哪 一 个 与 团队 已 有 的 技术 选 型 相符 ， 与 其 他 项 目的 特定 要 求 相符 。 


1. 使 用 Hive 进 行 数据 去 重 
以 下 Hive 示例 代码 完成 了 点 击 的 去 重 ， 并 将 产生 的 数据 插入 到 按 天 分 区 的 表 中 。 


INSERT INTO table $deduped_log 
SELECT 
ip， 
ts， 
UrlLs 
referrer, 
user_agent, 
YEAR(FROM_UNIXTIME(unix_ts)) year, 
MONTH(FROM_UNIXTIME(uNnix_ts)) month 
FROM ( 
SELECT 
ip, 
ts, 
url, 
referrer, 
user_agent, 
UNIX_TIMESTAMP(ts,'dd/MMM/yyyy:HH:mm:ss') unix_ts 
FROM 
Sraw_Log 
WHERE 
year=${YEAR} AND 
month=${MONTH} AND 
day=${DAY} 
GROUP BY 
ip, 
ts, 
url, 
referrer, 
user_agent, 
UNIX_TIMESTAMP( ts, 'dd/MMM/yyyy:HH:mm:ss') 
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此 处 除了 抽取 月 份 和 日 期 信息 之 外 ， 另 外 一 个 操作 就 是 将 数据 集 按 照 所 有 的 列 进行 分 组 。 
如 果 两 行 记录 是 重复 的 ， 那 么 它们 的 所 有 列 均 相 同 ， 通 过 GROUP BY 操作 后 就 会 只 剩 下 
一 行 。 
2. 使 用 Pig 进 行 数据 去 重 
使 用 Pig 去 重 的 方法 直截了当 ， 几 乎 不 需 解释 。 

rawLogs = LOAD "Sraw_Log_dir '; 


dedupedlogs = DISTINCT rawlogs; 
STORE dedupedlogs INTO 'S$deduped_log_dir' USING PigStorage(); 


8.6.2 会 话 生成 

点 击 流 分 析 有 一 个 重要 环节 是 对 点 击 进行 分 组 ， 即 将 单个 用 户 单 次 访问 〈 即 同一 个 会 话 ID 
下 ) 产生 的 多 个 点 击 聚 合 在 一 起 ， 这 种 处 理 便 称 为 会 话 生成 处 理 。 
通过 分 析 这 些 生成 的 会 话 ， 你 可 以 了 解 一 次 访问 中 ， 用 户 在 网 站 上 发 生 了 哪些 行为 ， 包 括 
是 否 购物 ， 以 及 访问 如 何 引 入 (如 自然 检索 、 付 费 搜索 、 友 链接 入 等 )。 对 于 一 些 市 场 分 
析 师 来 说 ， 在 一 些 工 具 中 ,会 话 一 词 的 意思 等 同 于 访问 。 


你 也 可 以 通过 网 络 服务 器 生成 会 话 。 在 这 种 情况 下 ， 网 络 服务 器 会 为 每 个 点 击 分 配 一 个 会 
话 ID (代表 该 点 击 属于 哪个 会 话 ) 。 但 是 ， 如 果 该 会 话 ID 不 可 靠 ， 或 者 点 击 的 生成 依赖 于 
定制 化 的 逻辑 ， 这 里 就 需要 自行 实现 (依据 日 志 的 ) 会 话 生成 算法 。 

生成 会 话 之 前 ， 首 先 需 要 搞 清楚 以 下 两 件 事情 。 

。 给 定 一 系列 点 击 ， 判 断 哪些 点 击 来 自 同一 个 用 户 。 只 通过 点 击 日 志 中 的 信息 通常 很 难 确 
定点 击 和 用 户 的 从 属 关系 。 一 些 网 站 会 在 用 户 首次 访问 其 站 点 (或 联盟 网 站 ) 时 ,将 
cookie 写 入 用 户 的 浏览 器 。 这 类 cookie 也 会 记录 到 网 络 服务 器 中 ， 因 此 可 以 据 此 识别 来 
自 同一 个 用 户 的 点 击 。 值 得 注意 的 是 ，cookie 信息 不 是 百分之百 可 靠 的 ， 因 为 用 户 可 能 
会 频繁 清空 cookie， 这 种 删除 甚至 会 在 访问 中 途 发 生 。 还 有 一 个 方案 : 如 果 没 有 cookie 
信息 ， 那 么 可 以 使 用 卫 地 址 来 识别 来 自 同一 个 用 户 的 点 击 。 同 样 ， 卫 地 址 有 不 可 靠 的 
时 候 。 许 多 公司 采用 网 络 地 址 转换 技术 (Network Address Translator，NAT) ， 可 以 实现 
多 个 工作 站 之 间 的 卫 地 址 共享 ， 因 此 多 个 用 户 可 能 会 处 理 成 一 个 用 户 。 这 时 ， 你 可 以 
考虑 利用 日 志 中 的 用 户 代 理 和 语言 等 内 容 进 一 步 区 分 用 户 。 这 里 的 例子 仅 使 用 卫 地 址 
来 识别 同一 个 用 户 的 点 击 。 

。 给 定 特定 用 户 的 一 系列 点 击 ， 判 断 一 个 给 定 的 点 击 是 属于 一 个 新 访问 的 点 击 还 是 之 前 访 
问 继续 的 点 击 。 如 果 一 个 用 户 发 生 了 三 次 连续 点 击 ， 相 邻 两 次 之 间 的 间隔 均 不 超过 五 分 
钟 ， 那 么 有 理由 认为 这 些 点 击 是 在 一 次 浏览 会 话 中 发 生 的。 然而 ， 如 果 前 两 次 点 击发 生 
在 五 分 钟 之 内 ， 而 第 三 次 点 击发 生 在 一 个 小 时 之 后 ， 那 么 合理 的 推测 是 第 三 次 点 击 来 自 
用 户 的 另外 一 次 访问 ， 是 此 后 的 另外 一 个 会 话 。 大 部 分 的 市 场 分 析 工 具 都 遵循 这 样 的 标 
准 : 如 果 同 一 用 户 的 两 次 点 击 间隔 超过 30 分 钟 ， 第 二 次 点 击 应 当 从 属于 一 个 新 的 会 话 。 
另外 ， 同 许多 市 场 分 析 工 具 一 样 ， 这 里 的 实现 也 认为 所 有 的 会 话 会 在 当天 结束 。 这 样 做 
会 导致 一 些 边界 上 的 错误 ， 但 对 问题 的 简化 还 是 很 有 帮助 的 。 举 例 来 说 ， 我 们 可 能 会 重 
新 生成 某 一 天 的 会 话 ， 有 了 这 种 假设 就 不 会 影响 前 一 天 或 后 一 天 的 会 话 了 。 同 时 ， 这 样 
也 会 简化 会 话 生 成 的 处 理 流 程 。 
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在 这 一 部 分 中 ， 我 们 会 举例 说 明 如 何 使 用 不 同 工 具 实现 会 话 的 生成 。Hadoop 生态 圈 中 的 
MapReduce、Hive、Pig、Spark、Impala 等 众多 工具 均 可 以 实现 该 处 理 ， 第 3 章 介绍 过 它 
们 。 通 常情 况 下 ， 你 可 以 选择 其 中 的 一 种 来 生成 会 话 数 据 集 。Hadoop 中 的 绝 大 多 数 框架 
都 可 以 满足 需求 ， 因 此 工具 选择 的 主要 考量 仍 在 于 开发 者 的 技能 背景 ， 看 哪 一 个 与 团队 已 
有 的 技术 选 型 相符 ， 哪 一 个 能 满足 其 他 项 目 及 性 能 需求 。 

总 之 ， 任 何 会 话 生成 算法 都 包含 以 下 步 又。 


(1) 遍历 整个 数据 集 ， 提 取 每 个 点 击 对 应 的 相关 列 〈 本 例 中 指 耳 地址， 也 可 加 上 cookie) 。 

(2) 将 单个 用 户 当 天 的 所 有 事件 收集 起 来 ， 形 成 按照 时 间 惟 分 类 的 用 户 维度 的 序列 。 

(3) 遍历 每 个 用 户 序列 ， 对 序列 中 的 每 一 个 点 击 事件 分 配 一 个 会 话 ID。 如 果 连 续 点 击 行为 
之 间 的 间隔 超过 了 30 分 钟 ， 则 会 话 ID 自 增 。 

接 下 来 ， 我 们 来 了 解 如 何 使 用 不 同 的 工具 实现 这 些 步骤 。 

1. 使 用 Spark 生 成 会 话 

Spark 是 Hadoop 上 的 一 个 新 执行 引擎 ， 甚 总 体 性 能 比 MapReduce 要 好 。 我 们 使 用 HDFS 

上 的 点 击 数据 创建 一 个 RDD。 然 后 通过 map() 函数 提取 每 个 点 击 的 重要 字段 ， 以 键 值 对 的 

方式 返回 ， 以 卫 地 址 为 键 ， 以 抽取 生成 的 日 志 字段 对 象 作 为 值 (第 一 步 )。 以 下 为 该 函数 

的 示例 代码 。 


JavaRDD<String> dataSet = 
(args.Length == 2) ? jsc.textFile(args[1]) : jsc.parallelize(testLines); 


















































JavaPairRDD<String, SerializableLogLine> parsed = 
dataSet.map(new PairFunction<String, String, SerializableLogLine>() { 
@Override 
public Tuple2<String, SerializableLogLine> call(String s) 
throws Exception { 
return new Tuple2<String, SerializableLogLine>(getIP(s), getFields(s)); 
} 
]); 


接 下 来 ， 我 们 将 从 属于 同一 个 IP 地 址 的 点 击 分 为 一 组 ， 并 按照 时 间 惟 进行 排序 (第 二 步 )， 
然后 使 用 sessionize() 方法 遍历 点 击 的 有 序列 表 ， 并 给 每 一 个 点 击 分 配 会 话 ID (第 三 
步 )。 以 下 为 上 述 步骤 的 代码 。 


//Sessionize 生 成 函数 ,输入 一 个 IP 的 事件 序列 ， 
// 按 照 时 间 惟 进行 排序 ,并 将 36 分 钟 以 内 的 所 有 事件 标记 为 同一 个 会 话 
public static List<SerializableLogLine> sessionize 
(List<SerializableLogLine> lines) { 
List<SerializableLogLine> sessionizedLines = Lists.newArrayList(lines); 
Collections.sort(sessionizedLines); 
int sessionId = 0; 
sessionizedLines.get(0).setSessionid(sessionId); 
for (int i = 1; i < sessionizedLines.size(); i++) { 
SerializableLogLine thisLine = sessionizedLines.get(i); 
SerializableLogLine prevLine = sessionizedLines.get(i - 1); 











if (thisLine.getTimestamp() - prevLine.getTimestamp() > 30 * 60 * 1000) { 
sessionId++; 
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} 


thisLine.setSessionid(sessionId); 


} 


return sessionizedLines; 


} 


// 此 处 按照 IP 地 址 对 点 击 进行 分 组 
JavaPairRDD<String, List<SerializableLogLine>> grouped = parsed.groupByKey(); 


JavaPairRDD<String, List<SerializableLogLine>> sessionized = 
grouped.mapValues(new Function<List<SerializableLogLine>, 
List<SerializableLogLine>>() { 
@Override 
public Iterable<SerializableLogLine> call 
(List<SerializableLogLine> logLines) throws 
Exception { 
return sessionize(logLines); 
} 
]); 


你 可 以 访问 本 书 的 GitHub 仓库 ， 获 取 使 用 Spark 实现 会 话 生成 的 完整 代码 。 

2. 使 用 MapReduce 生 成 会 话 

使 用 MapReduce 生成 会 话 ， 可 以 从 代码 层次 获得 更 深 一 层 的 控制 。 使 用 map() 函数 可 以 获 
取 点 击 日 志 中 的 相关 字段 (第 一 步 ， 参 见 前 面 提 到 的 三 个 步骤 ) 。 使 用 shuffle() 函数 可 以 
按照 用 户 对 事件 进行 集合 和 分 组 ， 并 使 用 一 个 定制 化 的 比较 器 (comparator) 实现 点 击 列 
表 按 照 时 间 戳 排序 的 需求 ， 然 后 将 数据 发 送 给 Reducer 端 (第 二 步 )。reduce() 函数 会 遍历 
每 个 用 户 有 序 点 击 的 列表 ， 并 分 配 会 话 ID (第 三 步 )。 

你 可 以 访问 本 书 的 GitHub 仓库 ， 获 取 使 用 MapReduce 实现 会 话 生成 的 完整 代码 。 

3. 使 用 Pig 生 成 会 话 

Pig 中 的 常用 库 DataFu 包含 一 个 Sessionize 国 数 。 该 国 数 以 特定 用 户 特定 日 期 的 记录 列表 
作为 输入 ， 每 条 记录 的 第 一 个 字段 是 时 间 惟 ， 点 击 列表 以 时 间 惟 升序 排列 。Ssessionize() 
函数 的 输出 是 一 个 点 击 记录 列表 ， 每 条 记录 都 包含 会 话 ID。 

4. 使 用 Hive 生 成 会 话 

虽然 仅 使 用 SQL， 利 用 SQL 的 窗口 分 析 函 数 的 确 可 以 实现 会 话 的 生成 ， 但 这 样 难 以 维护 
和 调试 写 出 的 查询 。 我 们 不 推荐 使 用 Hive 或 Impala 处 理 该 任务 。 


8.7 ”数据 分 析 


在 采集 和 处 理 完 数据 之 后 ， 就 可 以 进行 数据 分 析 ， 回 答 本 章 开头 提 到 的 问题 了 。 业 务 分 析 
人 员 可 以 使 用 若干 工具 来 浏览 和 分 析 数 据 。 第 3 章 对 此 有 详细 介绍 ， 简 而 言 之 ， 这 些 工具 
可 以 分 成 如 下 三 类 。 

。 可 视 化 及 BI 工具 ， 如 Tableau 和 MicroStrategy。 

。 统计 分 析 工 具 ， 如 及 或 Python。 

。 面向 机 器 学 习 的 高 级 分 析 工 具 ， 如 Mahout 或 Spark MLlib。 
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。 SQL 接口 工具 ， 如 Impala。 
本 章 主要 关 广 如 何 通 过 Impala 对 处 理 后 的 数据 集 进行 SQL 查询 访问 和 分 析 。 
举例 来 说 ， 想 知道 购买 者 在 该 网 站 上 平均 花 了 多 长 时 间 ， 可 以 执行 以 下 查询 。 


SELECT 
AVG(session_length)/60 avg_min 
FROM ( 
SELECT 
MAX(ts) - MIN(ts) session_length in_ sec 
FROM 
apache_log_parquet 
GROUP BY 
session_id 


)t 


使 用 如 下 查询 ， 还 可 以 计算 网 站 的 跳出 率 (用 户 打 开本 网 站 后 尚未 跳 转 至 其 他 页 面 便 已 结 
束 访 问 的 百分比 )。 


SELECT 
(SUM(CASE WHEN count!=1 THEN © ELSE 1 END))*100/(COUNT(*)) bounce_rate 
FROM ( 
SELECT 
session_id, 
COUNT(*) count 
FROM 
apache_log_parquet 
GROUP BY 
session id)t; 


























我 们 还 可 以 把 BI 工具 (如 MicroStrategy 或 Tableau) 连 到 Impala 上 ， 通 过 Impala 提供 的 
ODBC 或 JDBC 驱动 ， 针 对 点 击 数据 进行 更 进一步 的 BI 查询 。 


8.8 ”协调 调度 


到 这 里 ， 我 们 已 经 将 数据 采集 到 了 Hadoop， 并 针对 点 击 流 数 据 进行 了 各 种 各 样 的 处 理 ， 最 
后 以 终端 用 户 的 身份 分 析 处 理 后 的 数据 。 最 终 的 数据 分 析 是 以 即席 查询 的 方式 进行 的 ， 但 
是 前 面 的 部 分 (数据 的 采集 和 各 种 处 理 行为 ) 应 当 能 够 通过 多 步骤 协调 、 调 度 的 方式 自动 
完成 。 在 这 一 部 分 ， 我 们 将 展示 如 何 协 调调 度 基 于 Hadoop 进行 点 击 流 分 析 的 各 种 步 又 。 


在 数据 采集 方面 ， 我 们 使 用 Flume 获取 源源 不 断 的 数据 ， 并 将 其 导入 系统 。 在 数据 处 理 方 
面 ， 我 们 则 决定 每 天 运行 一 次 会 话 生 成 算法 ， 因 为 在 一 天 结束 的 时 候 会 话 一 般 也 结束 了 。 
考虑 到 数据 延迟 与 算法 复杂 性 之 间 的 权衡 ， 可 以 每 天 运行 一 次 会 话 生 成 程序 。 如 果 想 更 频 
繁 地 生成 会 话 ， 则 需要 维护 一 个 正在 运行 的 会 话 的 列表 (因为 会 话 可 以 持续 任意 时 长 )， 
会 话 生成 算法 会 变 得 过 于 复杂 。 这 对 于 近 实 时 系统 来 讲 是 非常 慢 的 ， 但 并 不 是 所 有 的 系统 
都 需要 做 到 实时 。 第 9 童 详细 介绍 了 如 何 搭 建 一 个 近 实 时 分 析 系 统 ， 而 且 第 9 章 中 的 许多 
技术 也 都 适用 于 点 击 流 分 析 的 应 用 场景 。 


我 们 使 用 第 6 章 中 提 到 的 Oozie 协调 与 调度 本 章 的 会 话 生 成 处 理 。 
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在 本 章 示 例 中 ，Oozie 工作 流 会 先 做 一 些 预 处 理工 作 ， 然 后 再 生成 会 话 。 以 下 是 Oozie 工 


作 流 的 示例 ， 包 括 使 用 Pig 处 理 数据 去 重 ， 以 及 使 用 MapReduce 生成 会 话 。 


<workflow-app xmLns="uri:oozie:workfLow:0.4" name="process-clickstream-data-wf"> 


<global> 
<job-tracker>${jobTracker}</job-tracker> 
<name-node>${nameNode}</name-node> 
</global> 
<start to="dedup"/> 
<action name="dedup"> 
<pig> 
<prepare> 
<delete path="${dedupPpath}"/> 
</prepare> 
<script>dedup.pig</script> 
<argument>-param</argument> 
<argument>raw_log_dir='${wfInput}'</argument> 
<argument>-param</argument> 
<argument>deduped_log_dir='${dedupPath}'</argument> 
</pig> 
<ok to="sessionize"/> 
<error to="fail"/> 
</action> 


<action name="sessionize"> 

<java> 
<prepare> 

<delete path="${sessionpath}"/> 

</prepare> 
<main-class>com.hadooparchitecturebook.MRSessionize</main-class> 
<arg>${dedupPath}</arg> 
<arg>${sessionpath}</arg> 

</java> 

<ok to="end"/> 

<error to="fail"/> 

</action> 


<kill name="fail"> 

<message>Workflow failed:[${wf:errorMessage(wf:lastErrorNode())}]</message> 
</kill> 
<end name="end"/> 


</workfLow-app> 


有 一 点 需要 注意 ， 我 们 通过 传递 year、month、day 参数 形成 dedupPath 变量 的 值 ， 这 几 个 
参数 确定 了 要 生成 的 点 击 数 据 的 确切 日 期 。 它 们 的 值 通 过 负责 调度 该 工作 流 的 协调 器 任务 


产生 。 

















在 我 们 的 设计 中 ， 协 调 器 每 天 都 会 触发 工作 流 ， 触 发 后 该 工作 流 会 处 理 前 一 天 的 数据 。 我 








们 需要 确保 前 一 天 的 数据 在 进行 会 话 生 成 时 已 经 收集 完毕 。 这 样 保证 了 数据 处 理 前 的 同步 
性 ， 是 非常 常见 的 流程 协调 模式 。 如 果 在 处 理 当 天 数据 时 ， 这 些 数据 很 还 没有 写 完 ， 那 么 


计 上 会 吕 
LZ U 











昌 现 不 一 致 的 情况 。 前 面 提 到 的 模式 可 以 避免 这 一 点 。 
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有 两 种 方式 可 以 保证 上 文 提 到 的 同步 。 


。 在 开始 处 理 前 一 天 的 工作 流 之 前 ， 验 证 Flume 已 经 开始 写 当 天 的 数据 。 

















。 等 数据 集 写 完 ， 生 成 一 个 文件 标识 ， 让 Oozie 等 到 该 标识 生成 完毕 再 继续 执行 处 理 。 文 











件 标识 通常 名 为 SUCCESS， 表 明 整 个 数据 集 已 经 成 功 落地 ， 可 以 开始 后 续 处 理 。 协 调 
器 支持 这 样 的 调度 规则 ， 即 等 到 指定 目录 下 文件 标识 生成 才 执 行 工 作 流 (使 用 <done- 





flag> 选项 )。 


在 本 例 中 ，Flume 不 太 容 易 生 成 一 个 文件 标识 。 相 对 而 言 ， 检 查 当 天 的 数据 是 否 已 经 开始 





写 入 是 容易 实现 的 ， 只 需 检查 当天 的 分 区 是 否 存 在 即 可 。 





因此 ， 上 文 提 到 的 第 一 种 方式 就 


可 以 保证 同步 了 ， 协 调 器 这 边 对 应 的 代码 示例 如 下 〈 下 文 代 码 有 部 分 截断 ， 全 部 代码 参见 





上 GitHub 仓库 ) 。 


本 





<coordinator-app name="prepare-clickstream" frequency="${coord:days(1)}" 


start="${jobStart}" end="${jobEnd} 
timezone="UTC" 
xmlns="uri:oozie:coordinator:0.1"> 


<datasets> 


<dataset name="rawlogs" frequency="${coord:days(1)}" 
initial-instance="${initialDataset}" timezone="America/Los_Angeles"> 
<uri-template>/etl/BI/casualcyclist/clicks/rawlogs/year=${YEAR}/... 


<done-flag></done-flag> 
</dataset> 
</datasets> 


<input-events> 
<data-in name="input" dataset="rawlogs"> 
<instance>${coord:current(0)}</instance> 
</data-in> 


<data-in name="readyIndicator" dataset="rawlogs"> 


<!-- Flune 完 成 某 一 目录 的 写 操作 之 后 并 不 会 设置 写 完 标识 ， 





无 法 得 知 该 目录 何 时 可 以 作为 输入 ,因此 直到 开 














才 开 始 通过 协调 器 来 调度 工作 流 - -> 
<instance>${coord:current(1)}</instance> 
</data-in> 
</input-events> 





<action> 
<workflow> 


台 写 第 二 天 的 数据 ， 


<app-path>${workflowRoot}/processing.xml</app-path> 


<configuration> 
<property> 
<name>wfInput</name> 
<value>${coord:dataIn('input')}</value> 
</property> 
<property> 
<name>wfYear</name> 


<value>${coord:formatTime(coord:dateOffset( 
coord:nominalTime(), tzOffset, 'HOUR'), 'yyyy')}</value> 


</property> 
<property> 
<name>wfMonth</name> 
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<value>${coord:formatTime(coord:dateOffset( 
coord:nominalTime(), tzOffset, 'HOUR'), 'MM')}</value> 

</property> 

<property> 
<name>wfDay</name> 
<value>${coord:formatTime(coord:dateOffset( 
coord:nominalTime(), tzOffset, 'HOUR'), 'dd')}</value> 

</property> 

</configuration> 
</workfLow> 
</action> 
</coordinator-app> 


如 你 所 见 ，readyIndicator 告诉 Oozie， 开 始 写 第 二 天 的 数据 时 才 开 始 执 行 工 作 流 ， 这 意 
味 着 前 一 天 的 数据 已 经 采集 完毕 。 


8.9 小 结 


在 本 章 讲解 了 一 个 常见 的 Hadoop 使 用 情境 : 以 批 处 理 方式 分 析 机 器 产生 的 数据 。 存 储 和 
处 理 如 此 海量 、 高 吞吐 、 多 样 性 的 数据 ， 使 用 Hadoop 再 合适 不 过 了 。 


我 们 的 架构 设计 使 用 Flume 采集 点 击 流 数 据 ， 使 用 Sqoop 将 来 自 CRM 或 ODS 的 二 级 数 
据 源 导 和 数据 集 。 接 下 来 ， 我 们 讨论 了 基于 点 击 数据 的 稼 见 处 理 ， 涉 及 数据 去 重 、 数 据 过 
滤 以 及 最 重要 的 会 话 生 成 。 男 外 ， 这 里 还 描述 了 生态 系统 中 各 种 不 同 的 执行 引擎 是 如 何 满 
足 这 些 处 理 需 求 的 。 后 面 ， 我 们 展示 了 基于 Hadoop 上 的 数据 集 进行 的 分 析 类 查询 ， 如 查 
找 一 个 网 站 的 跳出 率 。 最 后 ， 我 们 演示 了 如 何 通过 协调 调度 工具 (如 Oozie) 组 织 整 个 工 
作 流 。 
虽然 本 章 提 到 的 架构 是 面向 批 处 理 的 ， 但 面向 近 实 时 处 理 的 点 击 流 分 析 也 可 以 通过 将 数据 
存储 到 NoSQL 系统 (如 HBase) 中 实现 。 本 章 未 讨论 该 方案 ， 不 过 本 书 的 GitHub 仓库 中 
有 架构 设计 和 代码 可 供 参考 (http://bit.ly/haa-session) 。 

或 许 本 章 提 到 的 案例 跟 你 遇 到 的 实际 情况 并 不 完全 相符 ， 不 过 基于 Hadoop 进行 机 器 数据 
处 理 大 抵 皆 是 如 此 。 我 们 希望 本 章 能 够 在 设计 Hadoop 应 用 方面 穿针引线 ， 给 你 提供 一 些 
帮助 。 
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第 9 章 


其 诈 检测 





什么 是 欺诈 检测 ? 这 是 一 个 价值 几 十 亿美 元 的 产业 ， 关 乎 任何 一 家 公司 的 大 额 资金 损失 。 
欺诈 检测 的 核心 究竟 是 什么 ”出 于 讨论 所 需 ， 在 这 里 我 们 可 以 认为 欺诈 检测 就 是 基于 行 
者 (人 或 机 器 ) 是 否 按照 其 应 有 的 行为 行动 而 进行 决策 。 这 里 包括 两 类 问题 : 其 一 ， 知 晓 
正常 行为 与 异常 行为 的 不 同 ， 其 二 ， 根 据 这 些 知识 有 所 行动 。 

关于 第 一 点 我 们 举 一 个 简单 的 例子 : 家 长 总 是 能 知道 孩子 是 否 在 撒谎 或 有 所 隐瞒 。 这 一 
点 ， 有 孩子 的 人 都 有 体会 : 家 长 要 每 天 照顾 孩童 ， 所 以 知晓 孩子 正常 的 时 候 是 什么 样子 。 
如 果 有 一 天 ， 孩 子 忽然 变 得 比 平 党 安静， 或 者 总 是 不 敢 看 大 人 的 眼睛 ， 那 么 家 长 赁 直觉 
就 能 发 现 问 题 。 父 母 会 提出 各 种 问题 ， 直 到 发 现 孩 子 考试 失败 、 跟 朋友 打架 或 者 在 学 校 
受 了 欺负 之 类 的 事情 。 家 长 之 所 以 能 够 发 现 这 样 的 隐瞒 跟 欺 骗 ， 是 因为 他 们 与 孩子 之 间 
有 紧密 的 亲子 关系 ， 因 为 家 长 了 解 孩 子 。 行 为 模式 成 熟 后 ， 这 种 亲近 的 关系 是 监测 变化 的 
关键 。 


9.1 持续 改善 


现在 ， 事 情 很 少 会 六 到 孩子 盗窃 银行 上 百 万 或 卷 人 洗钱 案件 的 地 步 。 不 过 同 编程 中 的 情况 
一 样 ， 孩 子 总 会 试图 掩饰 些 什 么 。 随 着 年 龄 的 增长 ， 孩 子 的 说 谎 能 力也 提高 了 。 与 此 相 
同 ， 骗 子 与 黑客 也 越 来 越 精通 欺诈 。 

人 们 会 以 不 同 的 水 平 处 理 新 信息 并 作出 决策 。 在 这 里 ， 我 们 简单 分 出 两 个 不 同 的 处 理 组 : 
背景 处 理 与 快速 反应 。 背 景 处 理 用 于 学 习 与 提高 处 理 ， 而 基于 现存 的 处 理 作 出 反应 时 ， 我 
们 使 用 快速 反应 。 


回 到 孩子 的 例子 中 ， 了 解 一 个 其 至 几 个 孩子 与 了 解数 十 亿 的 信用 卡 持 有 者 、 顾 客 、 银 行 账 
户 所 有 者 、 电 子 游 戏 玩家 或 者 粉丝 等 从 规模 上 来 讲 完 全 不 同 。Hadoop 能 在 这 里 提供 有 价 
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值 的 服务 ， 以 足够 的 空间 存储 所 有 需要 的 人 物 相 关 信息 ， 而 且 Hadoop 能 够 检阅 所 有 人 物 


透露 出 的 信息 。 


A 一 
9.2 ”开始 行动 
有 了 背景 处 理 作 为 基础 ， 当 事情 看 起 来 有 点 奇怪 时 ， 我 们 已 经 准备 好 作出 反应 。 在 这 种 场 
景 中 ， 快 速 反应 就 是 观察 到 你 的 孩子 比 平 常 更 安静 或 者 躲避 眼神 交流 ， 你 从 直觉 上 感觉 到 
有 些 事情 不 太 正 常 。 但 是 ， 这 种 快速 反应 处 理 只 能 发 生 在 你 了 解 孩 子 的 正常 行为 后 。 作 为 
父母 的 我 们 要 将 孩子 的 行为 与 档案 比 对 ， 需 要 检测 异常 时 迅速 作出 反应 。 


有 意思 的 是 ， 了 解 大脑 学 习 与 反应 的 方式 后 ， 我 们 能 够 创建 一 个 成 功 的 欺诈 检测 系统 。 欺 
诈 检 测 系统 应 该 能 够 迅速 作出 反应 ， 并 且 基 于 到 来 的 数据 进行 较 小 程度 的 更 新 ， 但 是 需要 
线 下 处 理发 现 观点 。 这 些 观点 可 能 会 改变 快速 反应 阶段 的 规则 ， 或 者 发 现 新 的 反应 模式 。 


上 面 已 经 讨论 过 信用 卡 交易 欺诈 ， 但 是 应 该 注意 ， 其 诈 检测 涉及 各 个 行业 与 领域 。 与 我 们 
之 前 注意 到 的 相同 ， 任 意 一 种 依靠 欺骗 获 利 的 行业 都 是 有 风险 的 。 在 后 面 的 研究 案例 中 ， 
我 们 会 使 用 银行 或 者 信用 卡 公 司 使 用 的 欺诈 检测 系统 来 检测 针对 消费 者 账户 的 欺诈 。 类 似 
的 架构 也 适用 于 欺诈 检测 应 用 ， 比 如 在 一 个 大 型 多 人 网 络 游戏 中 检测 外 汇 交 易 或 商品 交易 
欺诈 。 


9.3 欺诈 检测 系统 架构 需求 


欺诈 检测 系统 与 其 他 很 多 Hadoop 使 用 案例 有 所 不 同 ， 前 者 包括 快速 反应 组 件 。 点 击 流 分 
析 系 统 或 者 数据 仓库 可 能 需要 处 理 数 十 亿 的 事件 ， 但 是 可 以 花费 数 小 时 来 做 。 其 诈 检 测 系 
统 必须 在 数 毫秒 之 内 对 事件 作出 反应 ， 并 且 必 须 完 全 可 靠 。 除 此 之 外 ， 这 里 还 需要 每 秒 
处 理 数 百 万 交易 ， 并 且 在 背景 中 运行 大 规模 的 数据 分 析 。Hadoop 生态 系统 提供 实时 组 件 
(如 Flume、Kafka 与 HBase)、 近 实时 组 件 (如 Spark Streaming) 以 及 搜索 组 件 ， 能 够 用 于 
背景 处 理 与 分 析 (如 Spark、Hive 与 Inpala) 。 


9.4 用 例 介 绍 


为 了 帮助 你 理解 欺诈 检测 架构 ， 我 们 创建 了 一 个 简单 的 例子 ， 该 例子 实现 了 在 银行 账户 或 
者 信用 卡 方面 的 欺诈 检测 。 


本 例 中 ， 协 诈 检测 的 目的 是 检阅 进入 的 新 交易 。 如 果 这 个 交易 比 用 户 每 日 正常 的 交易 数额 
大 很 多 ， 它 就 会 被 标记 。 系 统 也 会 检测 用 户 的 位 置 是 否 与 过 去 20 个 位 置 有 所 不 同 。 在 网 
络 交易 系统 中 ， 这 意味 着 检查 IP 地 址 是 否 与 过 去 20 个 登录 地 址 有 所 不 同 。 在 实际 销售 点 
系统 ， 这 意味 着 检查 用 户 的 地 理 位 置 (如 城市 ) 是 否 与 过 去 20 个 位 置 有 所 不 同 ， 而 且 按 
照 就 近 原 则 。 如 果 交 易 发 生 在 一 个 新 的 地 址 〈 线 上 或 其 他 )， 那 么 交易 平均 值 的 资金 限额 
会 被 进一步 降低 。 

这 是 一 个 简单 的 例子 ， 使 用 一 张 画像 表 来 存储 账户 持 有 者 的 信息 ， 实 现 本 地 缓存 层 ， 通 过 
HBase 进行 后 端 持久 性 处 理 。 尽 管 这 个 例子 很 简单 ， 但 它 能 让 你 理解 如 何 使 用 Hadoop 进 
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行 欺诈 检测 ， 也 提供 了 一 个 在 Hadoop 上 进行 近 实 时 处 理 的 具体 案例 。 








异常 检测 技术 的 广泛 关联 性 
注意 ,我 们 将 其 诈 检 测定 义 为 “基于 行动 者 (人 或 机 器 ) 表现 是 否 正 常 作出 决策 ”。 区 
J 党 与 异常 事件 的 能 力也 被 称 为 异常 检测 (anomaly detection 或 outlier detection ) 。 
常 检 测 不 仅 能 够 防止 金融 其 诈 ， 还 在 很 多 行业 有 着 深远 的 影响 。 本 章 所 示 的 技术 能 
够 用 于 检测 安全 系统 遭受 的 入 侵 、 机 器 错误 的 提前 警告 、 为 E 放 
弃 服 务 的 消费 者 ， 或 者 处 方药 的 非法 购买 (药物 滥用 的 提前 预警 )。 无 论处 于 哪个 行 
业 ， 异 常 检 测 都 是 最 有 用 的 数据 分 析 之 一 。 


9.5 架构 设计 
那么 ，Hadoop 是 如 何 帮助 我 们 实现 这 样 一 个 系统 的 呢 ? 这 种 系统 有 多 种 创建 方法 ， 我 们 


首先 看 一 个 一 般 设计 ， 而 后 深入 探讨 不 同 的 组 件 选择 ， 以 便 解 释 整个 设计 如 何 根 据 特定 的 
使 用 案例 进行 调整 。 


图 9-1 为 我 们 的 系统 提供 了 一 个 整体 的 架构 图 。 这 张 图 较为 复杂 ， 我 们 将 其 分 开 ， 分 部 分 


讲解 。 


信用 卡 消费 设备 
HBase 及 /或 
WE 


调整 近 实 时 状态 | 基于 较 大 时 间 片 的 调整 
Hadoop 集 群 一 

























客户 六 


网 络 服 获取 及 更 新 画像 
这 















































: 欺诈 检测 系统 的 架构 图 
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本 


些 





我 们 首先 介绍 左上 角 的 客户 端 (client)。 在 这 个 例子 中 ， 客 户 端 是 一 种 网 络 服务 ， 负 责 
接收 信用 卡 交易 请 求 并 作出 反应 (同意 或 拒绝 )。 这 里 有 多 个 格子 ， 因 为 Web 服务 可 能 
分 散在 多 个 服务 器 上 。 

为 了 同意 一 项 交易 ，Web 服务 可 能 需要 从 HBase 中 检索 用 户 画 像 与 交易 历史 ， 也 需要 
在 HBase 中 记录 目前 的 交易 ， 将 交易 作为 用 户 历史 的 一 部 分 。 

交易 、 同 意 或 者 拒绝 的 决定 以 及 决定 的 原因 都 会 通过 Flume 发 送 到 HDFS 汇总 。 
存储 于 HDFS 时 ,数据 能 够 使 用 近 实 时 的 处 理 框架 如 Spark 或 Spark Streaming 自动 处 理 。 
Spark Streaming 也 能 直接 从 Flume 中 处 理 数 据 。NRT 处 理 能 够 监测 趋势 以 及 过 去 儿 分 
钟 之 内 的 事件 ， 这 些 无 法 直接 通过 单独 观察 每 个 交易 (例如 ， 在 同一 个 地 理 位 置 或 者 同 
一 家 商店 中 多 个 用 户 的 可 疑 活动 ) 而 看 出 端倪 。NRT 处 理 能 够 在 HBase 中 相应 地 自动 
更 新 画像 。 

人 们 也 能 够 使 用 工具 探究 与 分 析 数 据 ， 如 Impala、Spark 与 MapReduce。 这 些 工具 能 够 
发 现 其 他 行为 模式 并 同时 在 HBase 中 更 新 客户 端 逻辑 与 信息 。 

章 将 详细 讲解 客户 端 架构 、HBase 模式 设计 以 及 基于 Flume 的 采集 架构 。 我 们 将 给 出 一 
近 实 时 处 理 的 建议 与 探索 性 分 析 ， 但 是 特定 机 器 学 习 算 法 不 在 本 书 范围 之 内 。 


































































































机 器 学 习 资 源 推 荐 
机 器 学 习 算 法 知识 对 于 任何 一 个 认真 看 待 其 诈 检 测 系统 实现 的 人 来 说 都 非常 实用 。 以 
下 资源 可 以 帮助 你 展开 这 方面 的 学 习 。 


。 如 果 想 在 数据 分 析 方 面 找到 有 趣 又 涨 知识 的 资料 ， 我 们 推荐 你 关注 Analytics Made 


Skeezy (http://analyticsmadeskeezy.com/)。 这 个 博客 采用 一 种 比较 风趣 的 方式 ， 讲 
述 了 与 欺诈 犯罪 有 关 的 主要 方法 和 算法 。 


。 如 果 你 想 在 机 器 学 习 方 面 找到 比较 实用 的 方法 ， 我 们 推荐 Douglas G. McIlwraith 等 


人 所 著 的 Algorithms of the Intelligent Web。 这 本 书 讲述 的 算法 使 用 了 易于 理解 的 
Java 实现 ， 让 一 些 流行 网 站 更 加 强大 。 


。 如 果 你 想 获得 实用 介绍 ， 并 且 倾 向 于 使 用 Python 而 不 是 Java， 那 么 我 们 建议 你 阅 


读 Sarah Guido 即将 出 版 的 书 Introduction to Machine Learning with Python。 


。 如 和 欲 了 解 更 多 深层 次 的 理论 背景 ， 又 不 打算 在 数学 专业 修一 个 博士 学 位 ， 那 么 我 





们 建议 你 阅读 Stuart Russell 与 Peter Norvig 会 著 的 Artificial Intelligence: 4 Modern 
Approach. 











而 简单 介绍 一 下 后 面 章 市 的 主题 。 

客户 端 架 构 : 

- 客户 端 如 何 对 到 来 的 事件 作出 决策 ? 

- 客户 端 如 何 使 用 HBase 存储 、 检 索 与 更 新 用 户 画 像 信息 ? 
- 客户 端 如 何 将 交易 状态 传送 给 其 他 系统 ? 

采集 : 如 何 使 用 Flume 将 客户 端的 交易 数据 采集 到 HDFS 中 ? 
近 实 时 处 理 : 如 何 学 习 低 延迟 处 理 的 到 来 数据 ? 

背景 处 理 、 检 阅 以 及 调整 .如 何 学 习 所 有 的 数据 并 升级 处 理 ? 
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你 也 可 以 使 用 本 章 结束 时 详细 讨论 的 其 他 方法 ， 但 本 章 重点 介绍 的 这 些 更 为 易于 使 用 ， 且 
有 良好 的 可 伸缩 性 ， 而 且 使 用 时 非常 快速 。 


现在 详细 看 一 下 构架 中 的 子 系统 。 


9.6 ”客户 端 架 构 
在 系统 中 ， 交 易 的 欺诈 检测 逻辑 在 客户 端 实现 。 客 户 端 自身 可 以 是 一 个 Web 服务 器 或 者 类 
似 的 应 用 ， 即 任意 一 种 需要 检阅 事件 并 作出 决策 的 系统 。 在 这 里 的 讨论 中 ， 我 们 假设 这 是 
一 个 Web 服务 器 ， 它 的 一 个 主要 任务 是 检阅 到 来 的 事件 并 反馈 同意 或 拒绝 。 
客户 端 如 何 精确 地 执行 所 有 的 查询 并 报警 ? 可 以 分 三 次 检查 每 个 事件 。 
。 事件 验证 
这 是 指 在 事件 本 身 的 上 下 文中 进行 规则 验证 ， 比 如 格式 或 基本 逻辑 规则 的 验证 (“ 列 A 
必须 是 一 个 正 数 ”“ 列 B 表示 撤回 ”， 诸 如 此 类 )。 
。 全 局 上 下 文 验证 
这 是 指 在 全 局 信息 上 下 文中 的 规则 验证 ， 如 风险 国 值 验证 。 此 处 可 能 需要 验证 URL 是 
否 安全 。 你 可 能 拥有 一 个 IP 地址 的 全 局 列表 ， 并 含有 风险 分 级 ， 而 规则 可 能 只 允许 人 Pp 
低 于 一 个 特定 风险 值 。 
。 画像 内 容 验 证 
这 种 验证 提高 所 需要 的 事件 相关 的 行动 者 (actor) 的 信息 水 平 。 银 行 交 易 就 是 一 个 很 好 
的 例子 。 如 果 用 户 最 近 100 个 交易 都 发 生 在 俄亥俄 州 与 密歇根 州 ， 俄 玄 俄 州 一 次 交易 后 
20 分 钟 ， 我 们 突然 收 到 一 个 发 生 在 俄罗斯 的 交易 ， 那 么 我 们 就 有 理由 报警 。 
综合 所 有 这 些 验证 ， 客 户 端 应 用 每 收 到 一 个 事件 都 会 检索 画像 ， 使 用 画像 与 事件 执行 欺诈 
检测 逻辑 并 返还 结果 。 
注意 ， 正 因为 需要 全 局 级 别 和 画像 级 别 的 验证 ， 这 里 会 用 到 Hadoop 或 HBase。 如 果 只 是 
需要 事件 验证 ， 那 么 完全 可 以 将 Hadoop 或 HBase 从 架构 中 移 除 。 这 里 涉及 数 十 亿 潜 在 用 
户 的 画像 信息 并 且 要 不 断 更 新 ， 所 以 Hadoop 与 HBase 非常 适合 。 


让 我 们 把 重点 放 在 需要 时 如 何 将 整体 的 用 户 画 像 信息 填充 到 客户 端 。 


9.7 画像 存储 及 访问 


在 存储 用 户 画像 以 及 从 客户 端 访问 画像 方面 ， 有 两 大 挑战 。 第 一 ， 需 要 存储 的 数据 量 很 
大 ， 可 能 涉及 十 亿 用 户 的 长 期 交易 历史 。 第 二 ， 信 息 需要 快速 获取 。 为 了 及 时 地 响应 坎 
诈 ， 我 们 需要 保证 在 毫秒 级 内 返回 任意 用 户 的 历史 查询 。 本 节 会 研究 使 用 NoSQL 时 的 一 
些 选 择 ， 并 为 信息 的 快速 线 取 配置 缓存 。 我 们 会 关注 HBase， 讲 述 如 何 将 用 户 画 像 存储 到 
HBase 中 ， 并 保证 快速 地 获取 和 更 新 数据 。 
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9.7.1 缓存 


客户 端 获取 画像 信息 的 最 快 方式 是 从 本 地 内 存 中 获得 。 如 果 本 地 缓存 里 有 画像 ， 那 么 就 可 
以 以 亚 微 秒 级 别 的 延迟 获取 验证 逻辑 需要 的 信息 。 


讨论 如 何 完整 地 实现 一 个 良好 的 缓存 层 显然 超出 了 本 书 的 范围 ， 不 过 我 们 会 对 实现 缓存 杠 
架 背 后 的 基本 原理 进行 整体 性 地 快速 介绍 。 


任何 缓存 框架 的 核心 都 是 内 存 。 内 存 当 然 有 其 自身 的 限制 。 指 定 节 点 上 很 可 能 没有 足够 的 
内 存 装 下 我 们 所 需 的 全 部 数据 。 我 们 推荐 使 用 多 层 方式 ， 将 本 地 缓存 与 远程 的 分 布 式 缓存 
结合 在 一 起 。 

不 管 是 否 会 用 到 额外 的 缓存 层 ， 我 们 都 推荐 为 大 多 数 活跃 的 用 户 使 用 本 地 缓存 。 虽 然 这 样 
做 会 增加 系统 扩展 的 复杂 性 ， 但 本 地 内 存 的 延迟 〈 亚 微 秒 级 ) 与 经 由 网 络 读 取 画像 的 延迟 
(至 少 为 毫秒 级 ) 不 同 ， 这 种 复杂 性 的 增加 是 值得 的 。 为 了 克服 本 地 缓存 的 内 存 大 小 限制 ， 
我 们 可 以 对 客户 端 之 间 的 画像 信息 进行 分 区 ， 从 而 保证 每 一 个 客户 端 保存 记录 的 一 个 子 
集 ， 业 务 判定 的 请 求 发 送 到 合适 的 客户 端 。 我 们 的 例子 使 用 Google 的 GUava 缓存 库 ， 该 
库 能 够 方便 地 创建 本 地 缓存 (https://github.com/google/guava/wiki/CachesExplained)， 并 可 
以 配置 它 的 get 方法 以 保证 缓存 中 没有 画像 时 从 HBase 中 加 载 。 


有 以 下 两 种 关于 远程 缓存 层 的 可 能 。 

。 以 分 布 式 内 存 缓存 方案 (如 Memcached) 在 集群 节点 中 分 发 数据 。 

。 配置 HBase， 以 保证 能 够 在 块 缓存 中 找到 所 有 需要 的 记录 。 块 缓存 能 够 将 数据 块 保存 在 
内 存 中 ， 进 行 快速 访问 。 

下 面 我 们 将 继续 讨论 这 两 点 。 

1. 分 布 式 内 存 缓存 

类 似 于 Memcached 或 Redis 的 分 布 式 内 存 解决 方案 简化 了 缓存 层 的 开发 工作 。 就 性 能 

言 ， 这 里 仍 需 要 进行 网 络 调用 ， 会 略微 拉 长 请 求 的 延迟 。 请 求 时 间 大 概 为 1~4 毫秒 。 这 一 

方案 与 分 区 方案 相 比 ， 优 点 在 于 节点 发 生 故 障 时 不 会 有 停机 时 间 ， 这 是 因为 我 们 会 配置 好 

缓存 系统 中 数据 的 多 个 副本 。 这 一 方案 的 缺点 在 于 ， 需 要 有 足够 大 的 内 存 来 装 下 所 有 的 东 

西 。 如 果 无 法 承载 所 有 的 数据 ， 那 么 就 需要 后 端 挂 一 个 磁盘 作为 额外 的 持久 化 存储 。 这 也 

就 意味 着 当 数 据 不 在 内 存 中 时 ， 需 要 额外 调用 。 稍 后 我 们 会 看 到 ， 使 用 了 HBase， 便 几乎 

就 没有 理由 使 用 分 布 式 的 缓存 方案 了 。 

2. HBase 的 BlockCache 

配置 无 误 的 话 ，HBase 作为 缓存 层 可 以 提供 毫秒 级 的 响应 时 间 ， 只 要 我 们 将 要 查找 的 结果 

保持 在 内 存 中 。 在 这 种 情况 下 ， 我 们 会 使 用 HBase 的 BlockCache， 保 证 最 近 使 用 的 数据 块 

保存 在 内 存 中 。 注 意 ，HBase 先前 的 版 本 在 内 存 上 有 限制 ， 会 影响 BlockCache 的 大 小 ， 不 

过 最 近 的 改进 已 经 消除 了 许多 这 样 的 限制 。 这 些 改进 包括 对 BlockCache 的 OffHeap 处 理 、 

对 BlockCache 进行 压缩 以 及 对 Java 的 垃圾 回收 (Garbage Collection，GC) 系统 进行 优化 。 


然而 ，HBase 的 一 个 核心 特点 〈 强 一 致 性 ) 对 其 诈 检测 系统 的 近 实 时 响应 有 着 潜在 的 不 利 
影响 。 就 像 CAP 理论 中 提 到 的 那样 ， 类 似 于 HBase 这 样 保证 强 一 致 性 和 分 区 容忍 性 的 系 
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统 提 供 不 了 多 少 可 用 性 保证 。 实 际 上 ， 如 果 一 个 HBase 的 Region 服务 器 发 生 故 障 ， 在 一 
段 时 间 内 (可 能 持续 几 分 钟 )， 会 有 一 些 行 键 无 法 读 取 或 者 写 入 。 

出 于 这 样 的 原因 ， 使 用 HBase 作为 核心 组 件 的 生产 环境 需要 引入 一 种 机 制 来 加 强 可 用 性 。 
这 个 话题 超出 了 本 书 的 范围 ， 不 过 这 方面 的 工作 一 一 在 HBase 项 目 上 支持 多 个 HBase 集群 
运行 并 保证 集群 之 间 的 数据 同步 一 一 还 在 进行 中 。 这 样 做 能 够 在 持久 化 失败 或 从 主 HBase 
集群 获取 数据 时 做 到 故障 切换 。 


9.7.2 ”HBase 数 据 定义 


为 了 进一步 了 解 怎样 使 用 HBase 实现 一 个 解决 方案 ， 现 在 来 看 一 下 数据 模型 以 及 与 HBase 
的 交互 。 在 信用 卡 交 易 欺 诈 检 测 的 例子 中 ， 我 们 需要 一 个 含有 信息 足够 多 的 画像 ， 这 样 在 
运行 模型 的 时 候 才能 判断 是 否 存在 行为 异常 。 
以 下 Java 代码 代表 ProfilePojo 类 ， 我 们 会 在 后 面 讨 论 它 的 值 。 注 意 ， 我 们 将 这 些 字段 分 
成 这 样 几 个 类 别 : 几乎 不 会 发 生 更 改 的 字段 、 经 常 发 生 更 改 的 字段 、 求 和 的 字段 、 捕 获 万 
史 信息 的 字段 。 

// 几乎 不 会 发 生 更 改 的 字段 ; 

private String username; 


private int age; 
private long firstLogIn; 


























// 频繁 更 改 的 字段 : 
private Long LastLogIn; 
private String LastLogInIpAddress; 


// 计数 器 : 
private Long logInCount; 
private AtomicLong totalSells; 
private AtomicLong totalValueOfPastSells; 
private AtomicLong currentLogInSellsValue; 
private AtomicLong totalPurchases; 
private AtomicLong totalValueOfPastPurchases; 
private AtomicLong currentLogInPurchasesVaLue; 





// 记录 历史 信息 的 字段 : 

private Set<String> last20LogOnIpAddresses; 
在 HBase 上 ， 不 同类 型 的 存储 情况 可 能 不 同 ， 因 此 需要 进行 这 样 的 归 类 。 现 在 看 一 下 有 哪 
些 方式 可 以 实现 HBase 数据 字段 的 持久 化 和 更 新 。 
1. 列 〈 组 合 列 或 原子 列 ) 
对 于 前 两 类 ， 我 们 关注 的 是 对 应 值 不 怎么 变化 和 经 常 发 生变 化 的 情况 。 我 们 可 以 将 这 些 列 
存储 到 同一 列 或 者 各 存 一 列 。 
使 用 RDBMS 的 用 户 从 来 不 会 考虑 将 多 个 字段 存储 到 一 列 中 ， 但 是 HBase 有 所 不 同 ， 它 会 
以 另 一 种 方式 将 数据 存储 到 磁盘 上 。 图 9-2 展示 了 HBase 将 五 个 值 存储 在 一 列 的 情况 ， 以 
及 将 它们 分 别 存 储 在 不 同 列 的 情况 。 
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图 9-2: 同一 列 存 储 与 单独 列 存储 














如 图 9-2 所 示 ， 使 用 同一 个 列 的 好 处 在 于 节省 磁盘 空间 。 现 在 ， 在 单独 的 列 中 ， 大 多 数 的 
额外 信息 会 被 压缩 ， 不 过 仍然 会 有 解压 缩 和 经 由 网 络 发 送 的 损耗 。 
将 所 有 的 值 组 合 在 一 起 ， 这 样 做 的 缺点 在 于 无 法 原子 性 地 更 改 它 们 。 因 此 ， 组 合 列 适用 于 
那些 几乎 不 变 或 者 通常 总 是 一 同 更 改 的 列 。 这 就 是 说 ， 由 于 在 这 一 方面 存在 着 性 能 的 优化 
点 ， 最 好 能 够 在 开发 伊始 将 事情 简化 。 一 个 需要 遵从 的 设计 原则 就 是 封装 进出 HBase 的 持 
入 化 和 序列 化 对 象 ， 从 而 保证 模式 上 的 任何 更 改 仅 在 自己 的 代码 中 产生 影响 。 
使 用 短 列 名 
需要 指出 的 是 ， 图 9-2 涉及 短 列 名 的 使 用 。 你 应 该 记得 ， 列 名 也 会 存储 到 磁 
盘 上 ， 但 RDBMS 往往 未 必 如 此 。 记 住 ，HBase 没有 固定 的 模式 ， 每 条 记录 
可 以 有 不 同 的 几 列 。 于 是 ， 每 条 记录 还 需要 对 应 列 的 名 称 。 理 解 了 这 一 点 ， 
就 把 列 名 缩短 吧 。 



























































2. 使 用 HBase 的 increment 或 put 方 法 作为 事件 计数 器 

HBase 的 API 提供 了 一 个 increment 方法 ， 可 以 允许 用 户 对 HBase 上 存储 的 一 个 数值 型 的 
值 进行 增加 操作 。 这 个 值 是 根据 行 键 、 列 篮 名 、 列 名 确定 的 。 举 例 来 说 ， 如 果 这 个 值 之 前 
是 42， 对 其 进行 加 2 操作 ， 那 么 就 会 变 成 44。 


这 一 功能 的 强大 之 处 在 于 ， 多 个 应 用 可 以 对 同一 个 值 进行 增加 操作 ， 确 保 以 线程 安全 的 方 
式 增 加 该 值 。 熟 悉 Java 的 人 应 该 知道 ， 这 里 的 增加 操作 类 似 于 AtomicLong 和 addAndGet() 
方法 ， 但 是 这 与 简单 的 long++ 不 同 ， 因 为 后 者 不 是 线程 安全 的 。 


不 过 ， 尽 管 increment 是 线程 安全 的 ， 仍 然 有 一 个 需要 考虑 的 问题 一 不 是 HBase 的 问题 ， 
而 是 客户 端的 问题 。 很 容易 想到 的 一 点 是 ， 客 户 端 发 送 了 increment 请 求 ， 也 许 未 得 到 先 
前 事件 的 确认 就 发 生 故 障 了 。 在 这 种 情况 下 ， 客 户 端 会 尝试 恢复 并 再 次 执行 increment。 
结果 increment 便 执行 了 两 次 ， 也 就 是 说 计数 在 重 置 之 前 是 错误 的 。 这 一 问题 在 更 新 多 个 
HBase 集群 时 也 会 出 现 : 向 主 集群 发 送 increment 请 求 ， 该 请 求 花 费 了 太 长 时 间 ， 客 户 端 
以 为 该 请 求 失败 ， 然 后 将 increment 发 送 给 故障 切换 的 集群 。 如 果 第 一 个 increment 执行 
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成 功 ， 那 么 increment 就 多 执行 了 一 次 。 


考虑 到 以 上 潜在 问题 ， 采 用 increment 可 能 不 是 最 好 的 方式 。 另 外 一 种 方式 采用 HBase 的 
put 接口 ， 尽 管 与 increment 函数 相 比 ，put 会 存在 一 定 的 局 限 性 。 


。 put 需要 初始 值 。 比 如 ， 增 量 为 2， 你 首先 需要 得 到 初始 值 ， 这 个 值 在 我 们 的 例子 中 为 
42。 在 将 值 44 发 送 回 HBase 之 前 ， 需 要 在 客户 端 上 完成 加 法 。 
。 因为 需要 初始 值 ， 所 以 无 法 在 一 个 多 线程 任务 中 增加 一 个 值 


Spark Streaming 这 样 的 数据 流 方案 也 许可 以 消除 这 种 限制 。 如 第 7 章 所 述 ，Spark 
Streaming 能 够 在 一 个 RDD 中 存储 计数 ， 在 Reduce 处 理 中 进行 增 量 ， 然 后 将 这 些 值 
put() 到 HBase 中 。 尽 管 很 简单 ， 但 这 也 提供 了 一 个 强大 的 模型 。 我 们 进行 了 分 区 与 
Microbatch， 因 此 这 里 不 需要 多 线程 。 同 样 ， 也 不 需要 由 每 一 个 pass 从 HBase 中 get 数 
据 ， 因 为 只 有 一 个 更 新 值 的 系统 ， 所 以 只 要 不 丢失 RDD， 就 不 需要 重新 get 的 最 新 值 。 


总 结 来 说 ，HBaseincrement 使 用 时 比较 简单 ， 但 是 存在 复制 增 量 的 问题 。put 不 存在 这 种 
问题 ,但 是 会 持续 更 新 ， 所 以 更 加 复杂 。 上 述 例子 的 实现 使 用 了 put。 


3. 使 用 HBase 的 put 方 法 记录 事件 历史 

除了 简单 的 计数 事件 ， 我 们 也 想 为 每 个 用 户 存储 全 部 交易 历史 。 由 于 一 个 HBase 记录 有 其 
特定 的 行 、 列 与 版 本 ， 将 用 户 的 新 事件 放置 到 与 历史 数据 相同 的 行 与 列 中 ， 就 可 以 存储 用 
户 的 历史 ， 并 使 用 HBase 追踪 用 户 历史 。 


与 increment 相同 ，HBase 版 本 化 提供 了 很 多 功能 ， 但 也 存在 缺陷 。 


。 每 个 单元 存储 的 版 本 号 (version) 默认 值 为 1。 这 种 情况 下 ， 我 们 想 要 将 版 本 号 设 为 一 
个 更 高 的 数值 一 一 至 少 为 20， 也 许 更 高 。 版 本 号 的 设置 在 列 族 而 不 是 列 的 范围 内 进行 。 
所 以 ， 如 果 只 想 把 一 行 中 一 列 的 版 本 号 设置 为 20， 你 需要 确定 是 否 真 的 想 让 所 有 列 的 
版 本 都 为 20， 或 者 付出 额外 的 代价 拆 分 出 两 个 列 族 。 

。 如 果 决 定 对 所 有 列 的 版 本 增加 20, 那 么 表 的 负担 就 会 增加 。 首先 ,扫描 时 间 会 拉 长 。 第 二 ， 
进入 模块 缓存 的 有 用 信息 量 会 减少 ， 合 并 后 磁盘 上 表 的 大 小 其 至 会 增加 。 


还 有 其 他 方法 吗 ? 答案 是 有 ， 而 且 还 是 HBase 的 put。 客 户 端 可 以 从 HBase 中 读 取 所 有 的 
历史 ， 创 建新 事务 ， 而 后 将 全 部 历史 写 入 一 个 单一 的 put。 


与 increment 及 put 方法 不 同 ， 采 用 这 种 方法 无 法 轻易 作出 明确 的 决策 。 我 们 可 能 想 保留 
最 后 100 个 卫 地 址 。 这 时 put 方法 会 涉及 大 量 更 新 。 同 样 ， 检 索 这 么 多 历史 并 存储 到 本 地 
缓存 ， 需 要 付出 的 代价 也 非常 大 。 在 确定 模式 设计 之 前 ， 你 应 该 仔细 考虑 具体 情况 与 两 种 
方法 的 性 能 。 

现在 看 一 下 如 何 从 网 络 服务 器 上 更 新 HBase 中 的 画像 。 注 意 ， 本 例 是 经 过 简化 的 代码 片段 ， 
完整 的 应 用 见 GitHub 仓库 (https://github.com/hadooparchitecturebook/hadoop-arch-book)。 


在 这 个 例子 中 ， 每 个 画像 都 有 自己 的 行 ， 行 键 为 userId。 行 包含 两 个 列 : json 存储 用 户 画 
像 ， 格 式 为 JSON， 时 间 惟 存储 画像 更 新 的 时 间 。 通 常 不 推荐 将 画像 存储 于 JSON 格式 中 ， 
因为 Avro 格式 的 优势 更 显著 〈 如 前 面 章节 所 述 )。 在 低 延 迟 数据 流 处 理 中 ，JSON 占用 的 
CPU 更 少 ， 能 够 增加 Web 服务 器 的 吞吐 量 。 
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这 里 的 整体 计划 就 是 开放 与 HBase 之 间 的 联系 ， 初 始 化 一 张 表 ， 然 后 从 表 中 get 与 put 
画像 。 


static HConnection hConnection; 





hConnection = HConnectionManager .createConnection(hbaseConfig); 


byte[] rowKey = HBaseUtils.convertKeyToRowKey("profileCacheTableName", user1d); 
Get get = new Get(rowKey); 


final HTableInterface table = hConnection.getTable("profileCacheTableName"); 


Result result = table.get(get); ©@ 
NavigableMap<byte[], byte[]> userProfile = result 
.getFamilyMap("profile"); 


Put put = new Put(rowKkey); © 
put.add("profile", 
"json", 
Bytes.toBytes(profile.getKey().getJSONObject().toString())); 
put.add("profile", 
"timestamp", 
Bytes.toBytes(Long.toString(System.currentTimeMillis()))); 


Long previousTimeStamp = profile.getKey().lastUpdatedTimeStamp; 


table.checkAndPut(rowKey, 
"profile", 
"timestamp", 
Bytes. toBytes(Long.toString(previousTimeStamp)),put) © 


@ 代码 段 从 HBase 中 获取 画像 。 在 完整 应 用 里 ， 它 出 现在 loadProfileFromHBase() 方法 
中 。 在 缓存 中 搜索 画像 时 ， 如 果 画 像 不 在 缓存 中 ， 这 段 代码 就 会 执行 。 


@ 代码 段 更 新 HBase 中 的 画像 。 在 完整 应 用 里 ， 它 出 现在 HBaseFlusher 中 。HBaseFlusher 
是 一 种 背景 线程 ， 能 从 列表 中 读 取 更 新 的 画像 并 将 其 输入 HBase， 如 上 所 示 。 


@ 我 们 使 用 checkAndPut() 方法 来 避免 出 现 竞争 条 件 ， 防 止 意 外 重 写 已 经 被 男 一 个 Web 
服务 器 更 新 的 画像 。 如 果 HBase 中 的 时 间 蕉 与 app 中 的 不 符 ， 那 么 就 会 出 现 一 个 过 期 
的 副本 。 这 里 需要 从 HBase 中 得 到 一 个 新 的 副本 ， 对 其 更 新 ， 而 且 试 着 重新 将 其 写 入 
HBase。 这 行 通常 出 现在 一 个 while() 声明 中 ， 所 以 如 果 checkAndPut() 失败 ， 我 们 会 
重新 加 载 新 的 画像 、 更 新 画像 并 重 试 。 


9.7.3 ”事务 状态 更 新 : 通过 或 否决 

现在 来 讨论 发 现 欺诈 时 如 何 将 通知 发 送 到 系统 。 

当 客户 端 发 现 欺诈 时 ， 外 部 系统 需要 开始 行动 作出 反应 。 从 客户 端 方面 来 说 ， 第 一 个 外 部 
系统 最 可 能 首先 将 事件 发 送 到 客户 端 ， 并 要 求 获知 请 求 或 行动 是 否 合法 。 在 简单 的 架构 
中 ， 让 这 种 方法 警告 初始 发 送 人 ， 与 针对 发 送 者 请 求 作出 反应 同样 简单。 
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下 一 组 可 能 需要 知道 欺诈 检测 结果 的 外 部 系统 在 下 游 ， 而 且 不 在 实时 反应 窗口 之 内 。 我 们 
能 将 检测 事件 直接 发 送 到 这 些 系 统 ， 但 是 这 几乎 等 于 复制 这 些 系 统 。 进 一 步 来 说 ， 如 果 存 
在 一 个 以 上 的 下 游 系统 ， 那 么 可 能 要 求 多 次 提交 同一 个 客户 端 警告 ， 这 也 增加 了 NRT 客 
户 端 方法 的 加 载 量 。 这 种 情况 下 将 Kafka 或 消息 队列 (Message Queue，MQ) 系统 增加 到 
架构 中 可 能 是 更 好 的 选择 。 可 以 将 警告 发 送 到 Kafka 或 MQ 系统 中 的 一 个 主题 ， 允 许 所 有 











需要 访问 警告 的 下 游 系 统 订阅 这 个 主题 。 























下 一 步 最 需要 去 做 的 可 能 是 记录 并 学 习 欺 诈 检 测 决策 。 这 要 求 我 们 发 送 所 有 的 事件 、 对 应 
的 欺诈 检测 决策 (欺诈 、 未 欺诈、 欺诈 类 型 ) 以 及 从 长 期 存储 与 批 处 理 方面 考虑 的 HDFS 
中 的 决策 推论 。 长 期 来 看 ， 这 将 使 我 们 能 够 使 用 类 似 于 Spark、Impala 与 MapReduce 的 引 
擎 执行 更 深层 的 数据 挖掘 。 这 种 长 期 存储 区 域 与 批 处 理 正 是 之 前 讨论 过 的 深层 处 理 。 我 们 
































随后 看 一 下 如 何 执行 这 种 处 理 。 























最 后 ， 事 件 与 决策 也 能 发 送 到 一 个 数据 流 处 理 系统 ， 接 受 实时 分 钟 的 数据 学 习 。 本 章 随 后 





也 会 提 到 这 部 分 内 容 。 


9.8 数据 采集 


接 下 来 关注 欺诈 检测 应 用 的 数据 采集 部 分 ， 也 就 是 图 9-3 架构 图 中 高 亮 标 出 的 一 小 部 分 。 
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9-3: 采集 架构 


这 里 使 用 Flume 作为 进入 HDFS 或 Spark Streaming 之 前 的 最 后 一 站 ， 原 因 
到 了 : 配置 简单 、 扩 展 性 好 、 项 目 成 熟 度 高 。 
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接 下 来 ， 我 们 将 关注 连接 客户 端 到 Flume， 部 署 Flume 到 HDFS 的 不 同方 式 。 关 于 建设 一 
个 Flume 采集 架构 ， 有 许多 事情 要 做 ， 大 部 分 相关 内 容 在 第 2 章 中 都 曾 提 及 。 
客户 端 与 Flume 间 的 数据 通路 


有 很 多 种 方式 可 以 将 客户 端 连接 到 Flume。 不 过 ， 出 于 讨论 的 需要 ， 我 们 只 关注 以 下 三 种 : 
客户 端 推送 、logfile 拉 取 以 及 在 客户 端 与 最 终 Sink 之 间 植 入 消息 队列 。 

1. 客户 端 推 送 

第 一 种 方式 非常 容易 上 手 : 在 应 用 中 先入 一 个 Flume 客户 端 进行 消息 的 批 处 理 ， 并 将 消息 
发 送 给 Flume。 在 这 个 模型 中 ， 客 户 端 会 直接 指向 Flume 的 agent， 后 者 会 执行 写 HDFS 的 
操作 (参见 图 9-4) 。 
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Avro Client 
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9-4: 客户 端 推送 
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在 Web 服务 中 ， 这 种 方法 可 以 借助 NettyAvroRpcClient 的 API 很 便捷 地 实现 ， 并 且 在 传输 
过 程 中 的 加 密 、 压 缩 以 及 对 于 批 处 理 和 线程 的 细 粒 度 控 制 上 ， 该 接口 都 可 以 提供 优势 。 

要 想 使 用 NettyAvroRpcClient， 首 先 需 要 通过 RpcClientFactory 获取 一 个 实例 ， 然 后 使 用 
EventBuilder 创建 Flume 事件 ， 并 将 事件 追加 到 NettyAvroRpcClient 中 以 发 送 给 Flume。 另 
外 ,还 可 以 调用 appendBatch() 方法 一 次 性 地 发 送 一 系列 事件 。 这 一 方法 会 增加 延迟 〈 在 
发 送出 去 之 前 要 等 待 事件 完成 积累 ) ， 但 是 能 够 增加 吞吐 量 ， 我 们 推荐 使 用 该 方法 向 Flume 
举例 来 说 ， 如 下 是 使 用 Avro 客户 端 从 欺诈 检测 应 用 向 Flume 发 送 事件 的 过 程 〈 此 处 只 
是 截取 了 代码 片段 ， 完 整 的 应 用 代码 可 以 通过 访问 GitHub 仓库 获得 (https:Wgithub.comy 
hadooparchitecturebook/hadoop-arch-book) 。 



























































public static class FLumeFLusher implements Runnable { 


int flumeHost = 0; 
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@Override 
public void run() { 


NettyAvroRpcClient Client = null; 
while (isRunning) { 
if (Client == null) { 
Client = getClient(); ©@ 
} 
List<Event> eventActionList = new ArrayList<Event>(); 
List<Action> actionList = new ArrayList<Action>(); 
try { 
for (int i = 0; i < MAX_BATCH_SIZE; i++) { 
Action action = pendingFlumeSubmits.poll(); ©@ 


if (action == null) { 
break; 


} 


Event event = new SimpleEvent(); 
event.setBody(Bytes.toBytes(action.getJSONObject().toString())); 
eventActionList.add(event); 
actionList.add(action); © 

} 

if (eventActionList.size() > 0) { 
Client.appendBatch(eventActionList); @ 


} catch (Throwable t) { 
try { 
LOG.error("Problem in HBaseFlusher", t); 
pendingFlumeSubmits.addAll(actionList); © 
actionList.clear(); 
Client = null; 
} catch (Throwable t2) { 
LOG.error("Problem in HBaseFLusher when trying to return puts to 
+ "queue", t2); 
} 
} finally { 
for (Action action: actionList) { 
synchronized (action) { 
action.notify(); 


和 


} 
} 
} 
} 


try { 
Thread.sleep(HBASE_PULL_FLUSH_WAIT_TIME); 


} catch (InterruptedException e) { 
LOG.error("ProbLem in HBaseFlusher", e); 
} 
} 


@ 通过 传人 要 发 送 数 据 的 Flume agent 的 地 址 ， 初 始 化 Avro 客户 端 。 
@ 维护 一 个 待 发 送 给 Flume 的 操作 (许可 或 驱 回 的 决策 ) 队列 。 从 队列 中 提取 事件 ， 并 将 
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它们 转化 成 Flume 事件 。 
@ 将 这 些 事件 添加 到 一 个 列表 中 ， 从 而 保证 以 批量 的 方式 发 送 给 Flume。 
@ 在 这 里 向 Flume 发 送 事件 列表 。 
@ 如 果 有 错误 发 生 ， 那 么 将 操作 放 到 队列 中 ， 以 便 稍 后 重 试 。 
在 初始 化 客户 端 时 ， 连 接 到 的 Flume agent 会 有 一 个 Avro 数据 源 监 听 对 应 的 端 


al.sources.rl.channeLs = c1 
al.SoUrces.rl.type = avro 
al.sources.rl.bind = 0.0.0.0 
al.sources.r1.port = 4243 


直接 从 客户 端 向 Flume 推送 数据 的 缺点 如 下 所 示 。 

。 会 假定 客户 端 使 用 Java 语言 实现 。 

。 需要 将 Flume 的 库 添加 到 客户 端 程序 中 。 

。 需要 客户 端 所 在 节点 上 的 额外 内 存 和 CPU 资源 。 

。 当 Flume agent 程序 崩溃 时 ， 客 户 端 需要 支持 在 Flume agent 之 间 进行 切换 。 

。 基于 客户 端 与 Flume agent 以 及 集群 物理 部 署 上 的 不 同 ， 客 户 端 在 不 同 的 Flume agent 上 
拥有 不 同 的 网 络 延迟 。 这 一 点 会 影响 到 线程 的 数量 和 批 处 理 的 大 小 。 

如 果 你 对 客户 端的 实现 拥有 绝对 的 控制 权 (我 们 在 本 例 中 就 是 这 样 假设 的 ) ， 而 且 客户 端 

的 主要 任务 之 一 是 将 数据 采集 到 Flume 中 ， 那 么 这 个 做 法 值得 推荐 。 不 过 ， 事 情 不 总 是 这 

样 的 ， 因 此 需要 考虑 其 他 的 方案 。 

2. Logfile 拉 取 

第 二 种 方式 在 实际 场景 中 比较 常见 ， 这 主要 是 因为 它 简单 易 用 。 大 多 数 程序 已 经 使 用 了 

logfile， 因 此 可 以 从 logfile 中 采集 事件 到 Flume 中 ， 而 不 需要 更 改 客户 端的 代码 。 这 种 情 

况 下 ， 我 们 会 将 日 志 写 入 磁盘 ， 然 后 使 用 一 个 Flume 数据 源 将 日 志 记 录 读 取 至 采集 流水 线 

中 。 图 9-5 展示 的 就 是 这 种 方案 的 整体 架构 。 
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图 9-5: Logfile 拉 取 
虽然 这 种 方式 比较 常见 。 但 是 我 们 不 推荐 在 欺诈 检测 时 使 用 它 。 与 前 述 的 Avro 客户 端 相 
比 ， 使 用 logfile 进行 采集 存在 一 些 缺 点 。 
。 性 能 
将 日 志 写 入 磁盘 ， 然 后 它们 读 取 到 Flume 中 ， 这 样 做 会 引发 性 能 问题 。 虽 然 数据 的 读 取 
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性 能 可 以 借助 操作 系统 提供 的 磁盘 缓存 提高 ， 但 是 在 写 操作 、 序 列 化 以 及 反 序 列 化 上 仍 
然 会 有 一 些 损耗 。 读 取 跟 不 上 写 和 的 速度 ， 常 常会 导致 更 为 严重 的 问题 。 
。 数据 丢失 
对 于 磁盘 上 快速 更 改 的 日 志 ， 获 取 尾 部 数据 不 是 一 个 简单 的 任务 。 当 文件 进行 自动 更 换 
时 ， 数 据 丢失 的 概率 也 会 增加 。 使 用 Spooling Directory Source 能 够 缓解 这 一 问题 ， 但 是 
这 种 数据 源 只 是 开始 处 理 上 层 应 用 写 操作 完成 并 关闭 的 文件 ， 从 而 增加 了 采集 的 延迟 。 
。 Flume 需 知 晓 客 户 痛 信 息 
Flume 需要 知道 应 用 程序 的 日 志 位 置 和 文件 格式 。 
在 本 例 中 ， 我 们 假定 客户 端 是 自己 编写 的 ， 可 以 使 用 先前 的 架构 ， 将 Avro 客户 端 添 加 到 
我 们 的 客户 端 中 。 在 点 击 流 的 例子 中 ， 我 们 假定 Web 服务 器 是 给 定 的 ， 无 法 对 其 进行 更 
改 。 在 这 种 情况 下 ， 使 用 Flume 的 Spooling Directory Source 从 logfile 中 采集 数据 。 
3. 中 间 层 的 消息 队列 或 Kafka 
这 种 模型 也 非常 常见 。 这 一 方案 将 客户 端 从 Flume 中 解 而， 允许 第 三 方 获得 即将 到 来 的 
消息 。 根 据 配置 的 不 同 ， 这 一 方案 的 具体 情形 也 有 所 不 同 。 注 意 ， 方 案 在 选择 上 会 相当 复 
杂 ， 我 们 并 没有 将 其 包含 到 先前 提 到 的 架构 图 中 ， 我 们 想 在 图 中 展示 更 为 直接 的 方案 。 
我 们 的 选择 可 以 是 : 客户 端 一 MQ 一 Flume/Spark 一 HDFS/Spark， 如 图 9-6 所 示 。 




































































Hadoop 集 群 一 





















































9-6: 客户 端 一 MQ 一 Flume/Spark 一 HDFS/Spark 





这 样 做 的 优点 在 于 可 以 将 客户 端 从 Flume 和 Spark 中 解 而 出 来 。 注 意 ， 图 中 有 两 个 潜在 的 
数据 通路 ， 即 Spark 可 以 从 Flume， 也 可 以 从 MQ 中 读 取 数据 。 二 者 均 可 以 正常 工作 。 不 
过 如 果 Spark 从 Flume 读 取 事件 数据 ， 那 么 可 以 在 发 送 给 Spark 之 前 进行 过 滤 。 这 样 做 可 
以 减少 对 Microbatch 系统 的 压力 。 
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这 个 架构 很 简单 ， 集 成 Kafka 也 是 有 益处 的 。 先 来 看 一 下 这 些 选 型 ， 首 先是 : 客户 端 一 
Kafka 一 Flume/Spark， 如 图 9-7 所 示 。 
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9-7: 客户 端 一 Kafka 一 Flume/Spark 














一 如 前 面 的 例子 ， 这 种 方式 可 以 在 保证 功能 不 变 的 情况 下 ， 从 Flume 和 Spark 中 解 而 客户 
端 。 而 且 ， 这 样 做 还 有 一 个 很 大 的 益处 : 可 以 重 放 数 据 ， 以 满足 开发 和 测试 的 需求 。 
图 9-8 展示 的 是 另外 一 种 方式 : 客户 端 一 Kafka 一 Flume Sink/Spark。 
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图 9-8: 客户 端 Kafka 一 Flume Sink/Spark 
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如 果 你 不 需要 Flume 拦截 器 ， 在 数据 发 送 给 HDFS 或 Spark 之 前 不 需要 转化 或 者 过 滤 数 
据 ， 那 么 这 应 该 就 是 最 为 简洁 的 方式 了 。 
9.9 近 实 时 处 理 与 探索 性 分 析 


正如 在 整体 架构 中 描述 的 那样 ， 除 了 由 客户 端 进行 实时 决策 之 外 ， 还 需要 两 类 异步 数据 
处 理 。 




















。 近 实时 
这 一 类 处 理 通常 在 事件 发 生 之 后 的 若干 秒 到 几 分 钟 内 完成 ， 目 的 往往 是 找到 涉及 多 个 用 
户 的 趋势 信息 。 


。 探索 性 分 析 
这 一 类 处 理 通常 在 事件 发 送 后 的 若干 小 时 或 几 天 内 完成 ， 目 的 往往 是 分 析 事 件数 据 、 改 
进 欺 诈 检 测算 法 ， 或 者 分 析 较 长 时 间 内 的 用 户 行为 。 这 种 分 析 采 用 的 框架 通常 和 数据 分 
析 情 况 类 似 : MapReduce、Spark 及 Impala 都 是 比较 流行 的 选择 。 

正如 本 章 一 开始 提 到 的 那样 ， 我 们 会 讨论 近 实 时 和 探索 性 分 析 在 架构 中 的 可 用 之 处 ， 但 不 

会 涉及 特定 的 算法 和 具体 实现 。 


9.10” 近 实时 处 理 


迄今 为 止 ， 我 们 已 经 针对 欺诈 检测 遍历 了 所 有 的 事件 ， 存 储 了 所 有 决策 ， 并 将 其 发 送 给 
HDFS 或 流 处 理 引 敬 。 接 下 来 ， 让 我 们 使 用 这 些 数据 ， 针 对 欺诈 和 作 北 进行 新 一 轮 的 防御 
性 检测 。 


假设 已 知 的 作弊 行为 已 经 输入 到 模型 和 规则 库 中 标记 。 问 题 在 于 总 会 有 聪明 人 尝试 坎 诈 行 
为 ， 他 们 会 学 习 和 改进 针对 他 们 的 模型 和 规则 ， 根 据 这 些 知识 进行 我 们 无 法 想象 的 策略 调 
整 。 这 就 意味 着 ， 我 们 需要 一 种 方式 检测 出 新 修改 的 策略 。 


我 们 需要 检测 出 行为 的 改变 。 要 达到 这 一 目的 ， 不 能 仅仅 在 事件 级 别 采 取 行 动 ， 而 要 着 手 
于 更 高 的 层面 。 如 有 果 出 现 足 够 多 的 改变 ， 那 么 应 当 有 迹象 提示 我 们 原始 的 规则 需要 调整 。 
更 为 重要 的 是 ， 在 遭受 更 为 显著 的 欺诈 损失 之 前 ， 某 些 活动 和 操作 应 当 关 闭 。 


想象 一 下 ,事件 处 理 或 事件 级 别 的 验证 是 针对 细节 的 ， 是 更 为 专注 的 处 理 方式 ， 而 近 实 时 
处 理 则 试 着 从 更 广阔 的 视角 进行 观察 。 这 里 的 问题 在 于 我 们 需要 尽快 行动 ， 因 此 为 了 看 到 
全 局 我 们 会 名 略 一 些 细节 。 我 们 会 关注 一 些 指标 (如 总 量 、 平 均值 以 及 集群 的 行为 )， 从 
而 了 解 整体 上 的 行为 模式 是 否 超出 了 原来 的 预期 。 


有 一 个 很 好 的 例子 可 以 证 明 全 局 事件 分 析 的 重要 性 : 一 大 和 群 人 的 事件 更 改 会 达到 国 值 。 回 
想 我 们 之 前 讨论 过 的 欺诈 行为 的 事件 验证 ， 一 种 检查 方式 是 看 用 户 的 行为 是 否 在 一 个 全 局 
的 或 者 相对 的 正常 行为 圆 值 之 内 。 以 电子 产品 的 正常 开销 为 例 ， 通 常情 况 下 ， 如 采 一 个 用 
户 在 电子 产品 上 的 花费 增加 了 100 倍 ， 那 就 可 能 是 发 生 了 值得 关注 的 事情 。 但 是 如 果 这 发 
生 在 新 iPhone 上 市 的 那天 ， 那 么 某 些 从 事件 级 别 上 看 来 异常 的 事件 在 全 局 范围 看 就 是 正常 
的 了 。 
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同样 ， 我 们 也 可 以 利用 这 种 方式 查找 大 量 的 小 额 诈 骗 。 我 们 可 以 查找 这 样 的 情况 : 欺诈 行 
为 在 单个 用 户 层面 上 微不足道 ， 但 是 会 影响 到 许多 用 户 。 比 如 从 百 万 用 户 各 盗 取 50 分 ， 
这 在 事件 层面 上 几乎 无 法 察觉 ,但 是 在 宏观 层面 上 就 可 以 挑选 出 来 了 。 

近 实 时 分 析 的 一 种 常见 类 型 是 进行 窗口 分 析 ， 也 就 是 关注 某 一 时 间 窗 口 (通常 是 几 秒 或 几 
分 钟 ) 内 的 事件 或 事件 数量 ， 如 图 9-9 所 示 。 
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图 9-9: 开 窗 分 析 


举例 来 说 ， 窗 口 分 析 可 以 用 于 检测 股票 价格 的 操纵 行为 。 有 些 模式 在 事件 层次 上 几乎 无 法 
发 现 问 题 ， 然 而 如 果 以 时 间 窗口 的 方式 关注 股票 市 场 ， 我 们 就 能 看 到 事件 的 发 生 顺 序 ， 以 
及 同一 时 间 所 有 事件 的 上 下 文 信息 。 

近 实 时 分 析 可 以 通过 流 处 理 框架 (如 Spark Streaming 和 Storm) 或 者 使 用 快速 批 处 理 框架 
(如 Spark) 进行 。 


Spark 和 Spark Streaming 之 所 以 能 够 成 为 解决 方案 的 候选 项 ， 原 因 如 下 。 


。 我 们 希望 将 注意 力 集中 在 复杂 的 业务 规则 上 ， 不 要 因为 使 用 流 处 理 的 方式 实现 系统 而 过 
度 分 心 。Spark 更 高 一 层 的 API 和 机 器 学 习 库 往往 很 实用 。 

。 通常 情况 下 ， 业 务 规则 可 以 在 批 处 理 模式 下 验证 ， 并 在 流 处 理 引 擎 上 运行 。Spark 支持 
从 批 处 理 到 流 处 理 的 平滑 过 渡 。 

。 最 后 ， 我 们 需要 进行 许多 相当 复杂 的 处 理 (如 持续 聚 类 或 推荐 )， 而 Spark Streaming 提 
供 了 不 少 可 以 让 这 些 处 理 简化 的 API。 比 如 ， 开 窗 国 数 就 可 使 用 Spark 很 便捷 地 实现 。 


9.11 探索 性 分 析 


最 后 一 个 要 讨论 的 架构 组 件 就 是 探索 性 分 析 。 这 一 点 的 实现 通常 需要 数据 分 析 师 和 欺诈 检 
测 专 家 通过 SQL 和 可 视 化 工具 在 数据 中 找到 有 意思 的 模式 。 另 外 ， 这 一 步 还 可 以 包括 使 用 
机 器 学 习 算法 进行 自动 模式 匹配 ， 以 及 算法 在 实时 环境 下 的 模型 训练 。 


通常 说 来 ， 这 一 部 分 处 理 不 会 拥有 和 前 面 处 理 一 样 的 SLA 要 求 。 
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将 事件 数据 加 载 (事务 处 理 、 通 过 或 否定 决策 、 决 策 原因 ) 到 HDFS 之 后 ， 我 们 可 以 通过 
SQL 接口 将 其 暴露 给 非 开发 人 员 (如 业务 分 析 师 ) 进行 即席 查询 。 


这 就 是 分 析 师 在 数据 仓库 进行 的 工作 。 在 Hadoop 的 帮助 下 ， 海 量 数据 的 分 析 比 以 前 更 为 
快速 。 ee 央 内 六 1 和 二 测 了 解 情况 ， 再 进行 查询 。 
如 果 分 析 师 “发 现 情况 "， 他 们 可 以 利用 这 些 知 识 更 新 用 户 的 画像 ， 改 进 实时 算法 ， 或 修 
改 客户 端 以 获取 并 利用 额外 的 信息 。 
分 析 师 可 以 浏览 数据 ， 我 们 也 可 以 将 通用 的 机 器 学 习 算 法 应 用 到 HDFS 存储 的 数据 上 。 一 
些 常用 的 方法 如 下 。 
。 针对 打 标 数据 进行 监督 学 习 
一 系列 的 交易 经 过 打 标 ， 可 靠 地 区 分 成 合法 或 欺诈 之 后 ， 算 法 就 可 以 确定 欺诈 交易 是 什 
么 样 的 ， 因 而 能 够 给 交易 分 配 风险 分 值 。 支 持 向 量 机 就 是 实现 该 方法 的 常用 算法 ， 贝 叶 
斯 网 络 也 是 。 
。 无 监督 学 习 
举例 来 说 ， 如 K-Means 这 样 的 聚 类 算法 能 够 对 相似 行为 进行 聚 徐 ， 而 分 析 师 稍 后 可 以 
对 特定 的 复 进 行 坎 诈 判定 
分 析 师 可 以 使 用 HDFS 上 的 历史 数据 来 探索 新 的 算法 和 特征 ， 以 便 用 在 已 有 的 算法 上 ， 并 
验证 算法 和 规则 。 分 析 的 结果 可 以 用 于 实时 和 近 实 时 欺诈 检测 层 的 改进 。 


9.12 ”其 他 架构 对 比 


当然 ， 其 他 的 架构 也 可 以 解决 这 一 问题 。 我 们 在 此 挑选 一 些 方案 进行 了 解 ， 并 讨论 选择 前 
述 架 构 作为 解决 方案 的 原因 。 图 9-10 所 示 为 目标 设计 。 






























































图 9-10: 目标 架构 图 


9.12.1 Flume 拦 截 器 


正如 第 7 章 提 到 的 那样 ， 我 们 可 以 在 Flume 拦截 器 中 实现 交易 许可 的 逻辑 ， 对 事件 进行 处 
理 并 在 更 新 HDFS 的 同时 更 新 HBase 中 的 画像 (如 图 9-11 所 示 )。 额 外 的 一 层 转发 能 够 降 
低 Web 服务 的 负载 ， 因 为 事件 的 查找 活动 、HBase 中 的 画像 检查 ， 以 及 是 否 许 可 该 交易 过 
程 的 决定 ， 这 些 都 在 Flume 中 完成 ， 而 不 需 在 Web 服务 中 进行 。 这 样 使 得 服务 的 扩展 性 
更 好 。Flume 拦截 器 能 够 满足 应 用 低 延 迟 的 需求 。 这 样 做 的 缺点 在 于 不 太 容易 将 结果 返回 
给 发 出 请 求 的 Web 服务 器 ， 因 为 已 经 加 了 一 层 的 转发 。 我 们 不 得 不 通过 回调 的 URL 或 消 
息 系统 完成 决策 结果 的 返回 。 
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图 9-11: Flume 拦截 器 架构 图 


9.12.2 从 Kafka 到 Storm 或 Spark Streaming 


这 一 架构 如 图 9-12 所 示 。 与 Flume 拦截 器 的 方案 类 似 ， 它 从 Web 服务 中 解 耦 事件 处 理 ， 
并 提高 了 扩展 性 。 在 这 一 架构 中 ， 画 像 的 查找 、 更 新 以 及 交易 的 许可 会 在 Storm 或 Spark 
Streaming 的 Worker 中 进行 。 注 意 ， 这 就 意味 着 ， 为 了 进行 诈骗 检测 ， 在 验证 事件 之 前 要 
经 过 两 个 系统 。 要 构建 一 个 快速 系统 的 时 候 ， 最 小 化 访问 路 径 和 复杂 度 会 更 有 利 。 而 且 ， 
这 一 方案 与 Flume 拦截 器 方案 在 将 结果 返回 给 请 求 者 时 ， 拥 有 相同 的 问题 。 




























































































Kafka + Storm 架 构 
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9-12: Kafka+Storm 架构 图 


9.12.3 扩展 的 业务 规则 引擎 


另外 一 个 方案 是 使 用 外 置 的 系统 处 理 业 务 规 则 ， 如 图 9-13 所 示 。 客 户 端 会 向 该 系统 发 送 请 
求 ， 并 将 获得 的 结果 返回 给 请 求 者 。 这 样 做 的 好 处 在 于 业务 规则 引擎 能 够 从 应 用 中 解 耦 ， 
支持 作为 新 信息 源 的 模型 更 新 。 这 一 方案 通过 引入 额外 的 组 件 增 加 了 实现 的 复杂 性 。 无 需 
约 言 ， 业 务 规则 引擎 不 在 本 书 的 讨论 范围 之 内 。 
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图 9-13: 扩展 规则 引擎 架构 图 
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注意 ， 在 所 有 这 些 可 选 的 架构 中 ，NRT 和 探索 性 分 析 可 以 按照 之 前 解释 的 方式 实现 。 而 使 
用 Spark Streaming 或 Storm 时， 有些 NRT 可 以 利用 流 处 理 引 擎 自身 处 理 。 


9.13 小 结 


实现 一 个 健壮 的 欺诈 检测 系统 需要 对 事件 作出 快速 而 可 靠 的 响应 ， 并 且 需 要 处 理 大 量 数 
据 。 满 足 这 些 需 求 的 架构 很 难 实现 ， 不 过 Hadoop 及 其 生态 系统 的 组 件 对 海量 数据 的 流 处 
时 和 批 处 理 提 供 了 支持 ， 使 用 起 来 获 益 展 多 。 

针对 基于 Hadoop 实现 欺诈 检测 系统 ， 我 们 描述 了 一 种 可 能 的 架构 ， 不 过 这 只 是 一 种 实现 
类 似 系 统 的 可 选 方 案 。 在 真实 场景 下 ， 架 构 会 根据 具体 用 例 和 企业 面临 的 欺诈 场景 来 驱 
动 。 好 在 我 们 提供 了 思路 ， 探 讨 了 Hadoop 如 何 应 用 于 这 种 类 型 的 用 例 ， 如 何 应 用 于 需要 
近 实 时 处 理 的 应 用 。 
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第 10 章 


数据 仓库 





现 如 今 ， 各 行 各 业 都 要 基于 数据 作出 决策 。 数 据 仓库 也 称 为 企业 级 数据 仓库 (Enterprise 

Data Warehouse，EDW)， 就 是 一 个 用 于 支持 数据 驱动 式 决策 的 大 型 数据 集合 存储 ， 已 成 

为 各 机 构 数据 基础 设施 的 核心 。Hadoop 最 为 常见 的 应 用 场景 之 一 就 是 充当 EDW 架构 的 

补充 ， 通 常 称 为 数据 仓库 装载 (Data Warehouse Offload，DWO) 或 数据 仓库 优化 (Data 

Warehouse Optimization，DWO ) 。 

使 用 Hadoop 做 数据 仓库 装载 ， 一 般 涵盖 如 下 内 容 。 

。 ETL/ELT 
抽取 -转换 -加 载 (Extract-Transform-Load，ETL)， 即 从 数据 源 系统 抽取 数据 ， 经 过 转 
换 加 工 后 ， 将 其 加 载 到 目标 系统 中 ， 用 于 后 续 处 理 和 分 析 的 过 程 。 转 换 阶 段 可 以 包括 基 
于 业务 需求 的 转换 、 与 其 他 数据 产 的 结合 ， 以 及 基于 某 些 条 件 的 数据 验证 或 数据 过 滤 。 
另外 一 个 常见 的 处 理 模式 是 抽取 -加 载 - 转 换 (Extract-Load-Transform，ELT)。ELT 模 
式 先 加 载 数 据 至 目标 系统 (通常 是 一 组 临时 表 )， 然 后 再 进行 转换 处 理 。 关 于 传统 数据 
仓库 领域 中 ELT 和 ELT 处 理 的 细节 ， 以 及 使 用 Hadoop 从 已 有 系统 进行 装载 处 理 的 优 
势 ， 我 们 后 面 会 进行 讨论 。 

。 数据 归档 
数据 增多 到 一 定 程度 时 ， 传 统 数 据 库 就 很 难 扩展 ， 而 且 扩 展 成 本 很 高 ， 所 以 通常 的 做 法 
是 将 历史 数据 迁移 到 外 部 归档 系统 (如 Tape) 中 。 这 样 做 的 缺点 在 于 ， 如 果 要 访问 归 
档 的 数据 ， 就 需要 将 其 从 线 下 的 归档 系统 中 拉 回 到 线 上 。 也 就 是 说 ， 数 据 归档 会 导致 拥 
有 潜在 价值 的 数据 不 在 线 上 ， 数 据 的 价值 无 法 被 发 据 。 而 将 数据 迁移 至 Hadoop 则 是 高 
效 又 节俭 的 选择 ， 一 方面 能 够 像 传统 数据 管理 系统 (如 EDW) 那样 导出 数据 ， 另 一 方 
面 还 能 确保 这 些 数据 的 在 线 状态 ， 能 够 响应 分 析 的 需求 。 
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。 探索 性 分 析 
对 于 并 未 存储 于 EDW 的 数据 ，Hadoop 提供 了 一 个 理想 的 沙 盒 (sandbox) 环境 支持 分 
析 。 这 可 能 是 因为 数据 内 在 价值 不 明 ， 可 能 是 因为 数据 结构 特殊 或 非 结 构 化 ， 也 可 能 只 
是 因为 数据 量 太 大 ， 无 法 加 载 到 EDW 中 。 但 是 ， 对 这 类 具有 潜在 价值 的 数据 ，Hadoop 
能 够 提供 EDW 所 没有 的 数据 访问 能 
许多 机 构 正 在 利用 Hadoop 来 增强 已 有 的 数据 基础 设施 。 随 着 最 新 的 进展 ，Hadoop 已 经 具 
备 了 数据 仓库 的 功能 ， 包 括 可 靠 的 数据 存储 以 及 低 延 迟 的 查询 响应 能 力 。 后 者 是 生成 用 户 
报表 和 运行 用 户 查 询 所 必需 的 。Hadoop 能 够 很 好 地 存储 和 处 理 半 结构 化 和 非 结 构 化 数据 ， 
并 支持 与 传统 结构 化 数据 之 间 的 关联 。 需 要 与 EDW 中 的 数据 关联 ， 分 析 消费 者 的 反馈 或 
社交 媒体 数据 的 时 候 ， 这 一 点 尤为 重要 。 另 外 ，Hadoop 还 支持 集成 许多 流行 的 第 三 方 BI 
以 及 可 视 化 工具 。 
本 章 示 例会 展示 如 何 将 Hadoop 作为 数据 仓库 的 补充 ， 同 时 探讨 数据 仓库 传统 功能 的 装载 。 
在 深入 学 习 案 例 之 前 ， 我 们 首先 看 一 个 传统 数据 仓库 架构 的 示例 。 我 们 的 目标 不 是 全 面 地 
介绍 数据 仓库 ， 而 是 为 案例 学 习 打 下 基础 。 


关于 数据 仓库 架构 的 全 面 介绍 ， 有 很 多 不 错 的 图 书 可 以 参考 ， 如 《数据 仓库 
工具 箱 : 维度 建 模 权威 指南 (第 3 版 )》。 















































10-1 展示 了 一 个 典型 EDW 架构 的 主要 组 成 部 分 ， 包 括 以 下 几 点 内 容 。 


。 操作 型 数据 源 系 统 ， 通 常 指 存储 业务 数据 的 在 线 事 务 处 理 (Online Transactional 
Processing,OLTP) 数据 库 和 操作 型 数据 存储 (Operational Data Store,ODS) 。 举 例 来 说 ， 
一 个 电子 商务 站 点 会 使 用 一 个 OLTP 数据 库存 储 所 有 客户 访问 网 站 产生 的 订单 、 退 款 和 
甚 他 事务 。 这 类 系统 一 般 会 优化 单 记录 查询 ， 从 实践 角度 来 讲 就 是 高 度 规范 化 以 及 对 模 
式 建立 索引 。 

。 暂 存 区 在 作为 临时 存储 区 的 同时 ， 也 是 一 个 进行 ETL/ELT 处 理 的 平台 。 数 据 从 操作 型 








这 些 转换 操作 一 般 包 括 : 数据 去 重 、 数 据 标准 化 、 数 据 清洗 、 数 据 补充 ， 等 等 。 值 得 注 
意 的 是 ， 这 里 提 到 的 暂 存 区 并 非 指 特定 的 某 个 架构 ， 它 会 随 着 使 用 的 工具 、 处 理 数据 的 
模型 等 因素 而 有 所 变化 。 举 例 来 说 ， 在 ETL 模型 中 ， 和 暂 存 区 可 能 是 数据 仓库 之 外 的 一 
些 关 系 型 数据 表 、 平 面 文件 或 者 是 厂商 自 定义 的 结构 。 而 在 ELT 模型 中 ， 暂 存 区 一 般 
是 数据 仓库 中 的 一 系列 表 ， 在 这 些 表 上 执行 转换 操作 ， 进 而 将 数据 加 载 到 最 终 表 中 。 广 
意 ， 无 论 暂 存 区 的 物理 实现 是 怎样 的 ， 它 仅 供 数据 处 理 所 用 ， 用 户 不 能 为 了 查询 、 报 表 
等 操作 访问 暂 存 区 的 数据 。 

。 数据 仓库 是 为 用 户 提供 数据 分 析 、 报 表 生 成 等 功能 的 地 方 。 与 数据 源 系统 的 范式 模式 设 
计 不 同 ， 数 据 仓 库 的 模式 设计 是 面向 数据 分 析 的 ， 适 用 于 多 条 记录 的 访问 场景 。 这 就 意 
味 着 ， 很 多 时 候 我 们 会 采用 多 维 模式 (如 星 形 模式 ) 设计 ， 这 一 点 我 们 会 在 后 续 示 例 中 
加 以 描述 。 
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操作 型 数 ” 医 地 一 下 


据 源 系统 








数据 分 析 或 
可 视 化 工具 








10-1: 顶级 数据 仓库 架构 





以 上 架构 中 ， 多 层 之 间 的 数据 迁移 和 数据 转换 ， 一 般 是 通过 数据 集成 (Data Integration， 
DI) 工具 完成 的 。Informatica、Pentaho、Talend、SAP、IBM 等 诸多 厂商 均 提 供 这 种 DI 工 
具 。 这 些 厂 商 中 有 不 少 不 仅 提供 传统 的 数据 管理 系统 ， 还 提供 基于 Hadoop 的 解决 方案 。 


虽然 本 章 主要 关注 开源 生态 系统 












































中 的 工具 ,但 是 已 经 选用 商用 DI 工具 的 组 织 机 构 也 可 以 





使 用 这 些 三 商 提 供 的 Hadoop 工具 。 一 方面 ， 利 用 熟悉 的 工具 更 容易 上 手 ， 另 一 方面 ， 既 
然 已 经 有 了 相关 投资 ， 那 么 当然 要 物 尽 其 用 。 


10.1 使 用 Hadoop 构 建 数据 仓库 





多 年 以 来 ， 服 务 于 机 构 的 传统 数 














据 架 构 健 壮 性 一 贯 不 错 ， 为 什么 许多 组 织 还 要 将 Hadoop 


集成 到 数据 管理 架构 中 呢 ?” 正 如 你 猪 测 的 那样 ， 原 因 在 于 不 断 增长 和 愈加 复杂 的 数据 。 以 





下 就 是 由 此 带 来 的 挑战 。 

。 失信 的 SLA 
随 着 数据 的 量 级 和 复杂 度 不 断 
以 完成 指定 的 ETL 处 理 操作 。 
保证 先前 承诺 的 服务 水 平 协议 

















增加 ， 数 据 的 处 理 时 间 也 不 断 延 长 。 在 限定 时 间 内 越发 难 
这 就 意味 着 需要 对 原 有 的 数据 仓库 进行 扩容 ， 否 则 无 法 
(Service Level Agreement, SLA)。 











在 ETL 处 理 尚未 完成 时 ， 对 数据 仓库 的 查询 将 不 得 不 与 ETL 处 理 (将 数据 从 原始 格式 





转换 成 数据 仓库 中 支持 查询 的 
验 变 差 ， 甚 至 还 会 使 ETL 处 悍 
虽然 可 以 通过 增加 数据 仓库 容 
外 的 硬件 和 软件 许可 需要 付出 














格式 ) 竞争 资源 。 这 会 导致 用 户 的 查询 响应 拉 长 ， 用 户 体 


日 
E 变 慢 。 


量 或 升级 暂 存 系统 来 解决 以 上 问题 但 是 这 意味 着 为 了 额 
另外 一 笔 高 昂 的 费用 。 而 为 了 控制 成 本 ， 数 据 仓库 中 只 存 





储 全 量 数 据 一 个 很 小 的 子 集 (通常 是 最 近 的 数据 )， 其 他 的 数据 归档 存储 。 此 时 ， 如 果 





要 查询 最 近 时 间 窗口 之 外 的 全 


量 数据 ， 就 得 大 费 周折 了 。 





图 灵 社 区 会 员 lar 


数据 仓库 | 245 
gelove(largelove@163.com) 专 享 尊重 版 权 





。 缺乏 灵活 性 
如 有 果 需 求 发 生变 更 ， 我 们 通常 需要 添加 新 的 报表 ， 或 者 更 新 先前 的 模式 描述 和 报表 信 
息 。 然 而 ， 传 统 数据 仓库 在 架构 上 并 不 具有 灵活 性 ， 许 多 组 织 无 法 快速 啊 应 这 种 变更 。 
这 个 问题 令 这 么 多 组 织 无 法 将 各 种 数据 源 (如 社交 媒体 、 图 片 等 数据 ) 与 传统 结构 化 数 
据 进 行 关联 。 

为 了 应 对 以 上 挑战 ， 我 们 将 目光 投向 了 Hadoop。 而 作为 数据 仓库 的 补充 ，Hadoop 能 够 提 

供 以 下 帮助 。 


。 将 数据 转换 操作 从 已 有 系统 装载 到 Hadoop。Hadoop 提供 了 一 个 十 分 经 济 的 数据 处 理 平 
台 。 由 于 Hadoop 支持 海量 数据 的 高 效 并 行 处 理 ， 所 以 处 理 时 间 和 处 理性 能 会 有 明显 的 
改善 ， 承诺 SLA 的 也 有 了 保障 。 

。 将 数据 处 理 移 动 到 Hadoop 中 进行 ， 先 前 占用 数据 仓库 的 资源 就 可 以 腾 出 来 为 用 户 查询 
服务 了 。 

另外 ， 使 用 Hadoop 还 会 进一步 多 得 以 下 三 方面 的 收益 。 

。 通过 Hadoop 提供 的 数据 访问 接口 ， 分 析 人 员 可 以 探索 性 地 发 现 数据 的 潜在 价值 ， 而 这 
些 正 是 先前 无 法 发 现 的 。 

” 将 数据 仓库 中 的 数据 在 线 归档 到 Hadoop 中 ， 可 以 释放 数据 仓库 中 宝贵 的 空间 和 资源 ， 
不 再 需要 吊 贵 的 扩容 了 。 

。 具有 灵活 性 的 Hadoop 支持 模式 演进 和 半 结 构 化 、 非 结构 化 数据 的 处 理 ， 这 就 意味 着 下 
流 报 表 或 模式 发 生变 化 后 ， 快 速 啊 应 变更 成 为 了 可 能 。 

图 10-2 展示 了 Hadoop 作为 数据 仓库 补充 时 的 顶级 架构 图 。 





























Flume/Kafka 














10-2: Hadoop 数据 仓库 架构 图 


现在 来 关注 整个 架构 。 
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到 中 左 侧 部 分 是 操作 型 数据 源 系统 (Operational Source System, OSS, 如 OLTP 数据 库 )。 
通常 情况 下 ， 除 了 OSS， 其 他 数据 源 也 会 接 入 Hadoop， 如 网 络 日 志 (Web log)、 机 器 
数据 (machine data) 或 社交 媒体 订阅 数据 (social media feed) 等 。 对 于 传统 架构 的 数 
据 仓 库 来 讲 ， 这 些 数据 源 是 难以 处 理 和 管理 的 ， 但 Hadoop 轻松 化 解 了 问题 。 我 们 通常 
会 用 Sqoop 完成 传统 数据 源 的 数据 采集 ， 用 Flume 或 Kafka 这 样 的 工具 收集 基于 事件 的 
数据 。 

图 中 的 Hadoop 已 经 取代 了 之 前 架构 图 中 的 数据 暂 存 区 。 在 将 数据 源 转换 和 加 载 到 目标 
系统 之 前 ,首先 要 将 其 加 载 至 HDFS ,而 转换 操作 则 通过 Hadoop 支持 的 数据 处 理 框 架 (如 
MapReduce、Spark、Hive 或 者 Pig) 来 完成 。 

待 数据 转换 操作 完成 后 ， 数 据 就 可 以 加 载 至 目标 系统 了 。 本 例 中 ， 转 换 后 的 数据 要 能 
够 通过 Hadoop 上 的 SQL 接口 (如 Hive 或 Impala) 进行 访问 ， 还 要 能 够 导出 至 数据 仓 
库 ， 以 便 后 续 的 深入 分 析 。 另 外 ， 根 据 图 10-2， 数 据 仓 库 中 的 数据 还 常常 需要 回迁 到 
Hadoop 中 ， 举 例 来 说 ， 对 数据 进行 归档 ， 或 者 进行 探索 性 分 析 时 就 有 这 样 的 需要 。 

图 10-2 还 展示 了 通过 分 析 工 具 〈 如 BI、 分 析 、 可 视 化 工具 ) 对 数据 进行 访问 的 过 程 。 
与 先前 提 到 的 传统 数据 仓库 形成 对 比 的 是 , 旧 架 构 中 的 分 析 工 具 无 法 访问 暂 存 区 的 数据 。 
而 在 新 的 架构 中 ， 基 于 数据 仓库 和 Hadoop 均 可 以 进行 数据 分 析 。 由 于 Hadoop 提供 了 
一 个 通用 的 大 数据 处 理 框架 ， 在 单个 集群 中 支持 多 种 类 型 的 任务 (如 ETL 和 分 析 ) 也 
是 很 容易 的 。 
图 中 有 一 点 尚未 提 及 , 即 处 理 流程 可 以 通过 Oozie 这 样 的 工作 流 管理 工具 进行 协调 调度 。 












































































































































本 章 会 借助 一 个 案例 讲解 如 何 使 用 Hadoop 完成 数据 仓库 的 装载 ， 主 要 包括 以 下 内 容 。 


下 


使 用 Sqoop 从 操作 型 数据 源 系统 中 提取 数据 ， 并 将 其 导入 Hadoop。 

将 数据 存储 到 Hadoop 需要 考虑 的 因素 ， 包 括 数据 模型 、 文 件 格式 ， 等 等 。 
使 用 基于 Hadoop 的 处 理工 具 进 行 数 据 转换 。 

使 用 Oozie 对 整个 处 理 流程 进行 协调 调度 。 

通过 Impala 这 样 的 工具 分 析 Hadoop 中 的 数据 。 





























下 介绍 例子 中 需要 使 用 的 数据 集 ， 并 开始 具体 的 讨论 。 








10.2 ”用例 场景 定义 


本 章 将 讲解 一 个 电影 评价 系统 。 该 系统 首先 包括 一 张 电影 列表 ， 包 含 上 映 时 间 、 网 路 电影 
资料 库 (Internet Movie Database，IMDb，http://imdb.com) 地 址 等 额外 的 信息 。 用 户 登 录 





























后 可 以 对 电影 投票 打分 ， 因 此 评价 系统 会 包含 用 户 的 统计 信息 〈 如 年 龄 、 职 业 、 邮 政 编码 
等 )。 用 户 给 出 的 分 数 为 1-5， 评 价 系统 存 有 这 些 评分 数据 。 每 个 用 户 打分 过 的 电影 数 不 
定 ， 从 0 到 全 部 均 有 可 能 。 


这 个 系统 建设 好 之 后 ， 需 要 回答 以 下 几 个 问题 。 











一 部 或 多 部 指定 的 电影 的 平均 评分 是 多 少 ? 
本 周 的 趋势 是 怎样 的 ? 一周 中 哪 部 电影 的 评价 分 数 上 升 最 快 ? 
21~30 岁 的 年 轻 女 性 给 电影 《死因 漫步 》(1995) 打分 不 低 于 3 分 的 比例 有 多 大 ? 
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。 有 百 分 之 几 用 户 会 在 三 个 月 内 修改 电影 的 评分 分 值 ? 更 进一步 来 讲 ， 电 影 的 评分 被 修改 
的 比例 是 多 少 ? 对 于 发 生 评分 更 新 的 电影 ， 更 新 间隔 的 时 间 分 布 是 怎样 的 ? 
本 例会 基于 MovieLens (http://grouplens.org/datasets/movielens/) 进行 研究 。 在 MovieLens 
的 网 站 上 ， 有 十 万 、 百 万 、 千 万 等 儿 个 不 同 数 据 量 级 的 数据 集 ， 每 个 数据 集 的 模式 和 结构 
都 有 所 不 同 。 我 们 选择 十 万 量 级 的 数据 进行 后 续 的 讨论 。 下 载 了 该 数据 ， 你 会 发 现 其 中 有 
量 文件 。 其 中 ， 我 们 最 为 关心 的 是 以 下 内 容 。 
。 评分 数据 
位 于 名 为 udata 的 文件 中 ， 包 括 所 有 针对 电影 的 评分 数据 。 在 该 文件 中 ， 电 影 和 用 户 均 
以 ID 形式 简单 表示 。 
。 电影 数据 
位 于 名 为 item 的 文件 中 ， 包 含 所 有 电影 的 ID ， 以 及 对 应 的 其 他 信息 (电影 标题 、 上 映 
日 期 等 ) 。 
。 用 所 信 息 
位 于 名 为 u.data 的 文件 中 ， 包 含 所 有 用 户 的 ID， 以 及 用 户 相 关 的 统计 信息 。 
我 们 将 讨论 在 这 样 一 个 电影 评价 系统 背后 ， 相 关 数 据 如 何 通 过 联合 使 用 Hadoop 和 数据 仓 
库 进 行 存储 和 处 理 。 随 着 讨论 的 推进 ， 我 们 会 首先 讲述 产生 以 上 数据 的 系统 会 有 怎样 的 
OLTP 模式 ， 然 后 讨论 将 数据 传输 到 Hadoop 和 数据 仓库 之 后 ， 数 据 将 会 拥有 什么 样 的 表 
现形 式 。 


10.3 OLTP 模 式 


数据 集 是 以 文件 形式 存在 的 ， 图 10-3 中 的 实体 关系 图 (Entity Relationship Diagram，ERD) 
展示 了 该 数据 集 对 应 的 一 个 OLTP 实现 。 






























”id INT 
> gender CHAR(1) 
> zip_code VARCHA... 
9 age INT 

$ occupation_id INT 

9 last_modified DAT... 





Pid INT 
9 timestamp DATETIME 
?user_idINT 

-| Y movie_id INT 

Yrating INT 














id INT 
人 title VARCHAR(128) 
信 release_date DATE 
O video_release_date DATE 
9 imdb_url VARCHAR(1024) 











-| 
?id INT 
@ occupation VARCHAR(64) 
> 































四 
Pid INT 
> name VARCHAR(15) 














图 10-3: MovieLens 数据 集 的 OLTP 实现 示例 


通常 来 讲 ， 建 立 OLTP 模式 的 目标 在 于 实现 数据 的 规范 化 ， 即 去 除数 据 元 余 、 保 证 数据 完 
整 。 它 能 够 允许 用 户 更 为 简便 和 自动 地 完成 某 些 操 作 ， 如 创建 、 删 除 、 更 新 特定 表 中 某 一 
字段 ， 同 时 也 能 自动 地 泛 化 到 其 他 表 中 。 
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在 图 10-3 中 ， 用 户 信息 表 〈 即 user 表 ) 包含 每 一 个 用 户 的 信息 ， 如 用 户 标识 JP、 性别、 
职位 、 邮 政 编码 以 及 年 龄 。 而 用 户 的 职位 信息 则 保存 在 另外 一 张 名 为 occupation 的 职位 信 
息 表 中 。 与 MovieLens 原始 的 模式 相 比 ， 我 们 的 模式 设计 进行 了 一 个 小 更 改 ， 在 用 户 信息 
表 中 添加 了 一 列 ， 名 为 last_modified (上 一 次 修改 日 期 )。 该 列 用 来 存储 用 户 信息 最 近 一 次 
被 修改 的 时 间 戳 。 


你 可 以 看 到 ， 电 影 信息 表 ( 即 movie 表 ) 存 有 所 有 可 以 评分 的 电影 。 电 影 信息 表 中 有 一 个 
ID 列 ， 该 列 是 表 的 主键 。 表 的 其 他 列 有 : 电影 名 称 、 上 了 映 日 期 、 视 频 发 行 日 期 ( 若 存 在 )、 
IMDb 地 址 。 每 部 电影 还 对 应 着 一 个 或 多 个 类 别 。 电 影 的 类 别 保存 在 电影 类 型 表 〈 即 genre 
表 ) 中 。 通 过 电影 与 类 别 关 系 表 ( 即 movie_genre 表 ) ， 你 可 以 看 到 每 一 部 电影 与 一 个 或 多 
个 类 别 的 对 应 关系 。 


另外 ， 还 有 一 个 用 户 打分 表 ( 即 user_rating 表 )， 其 中 存储 着 每 个 用 户 对 每 部 电影 的 打分 
情况 。 该 表 保 存 着 一 个 用 户 评分 操作 发 生 时 ， 用 户 ID (user_id)、 电 影 ID (movie_id) 以 
及 用 户 给 出 的 评分 、 评 分 操作 的 时 间 改 。 用 户 打分 表 的 主键 是 一 个 名 为 id 的 列 ， 当 新 的 
打分 记录 插入 时 ， 自 增 的 值 对 应 产生 。 


10.4 ”数据 仓库 术语 介绍 

数据 建 模 有 两 种 常见 策略 : 维度 模型 (也 称 为 星 形 模式 ) 与 规范 化 模型 。 传 统 数据 仓库 设 
计 通 常会 涉及 以 上 二 者 之 一 的 变 体 。 

维度 模型 始 于 一 张 事实 表 (fact table) ， 这 类 表 的 内 容 通常 是 数据 库 中 关于 实体 的 不 变 值 或 
测量 值 。 举 例 来 说 ， 事 实 可 以 是 电信 业务 中 的 一 通 呼叫 、 零 售 电 商业 务 中 的 一 笔 订单 、 医 
疗 保健 行业 中 的 一 剂 处 方 等 。 在 上 述 案例 中 ， 事 实 是 一 个 用 户 针 对 某 一 部 电影 给 出 的 一 次 
评分 。 

在 维度 模型 中 ， 围 绕 事 实 表 会 有 许多 维 表 (dimension table) ， 这 些 表 中 是 系统 中 各 实体 的 
详细 信息 ， 给 出 了 事实 表 的 上 下 文 。 在 零售 电 商 业务 中 ， 某 个 商品 在 特定 价格 的 成 交 订 单 
就 是 事实 表 中 的 一 条 记录 ， 而 维 表 的 维度 则 会 涉及 商品 、 付 费 的 客户 、 支 付 日 期 、 支 付 发 
生 的 地 理 位 置 ， 等 等 。 商 品 维 表 中 有 关于 这 件 商 品 的 详细 信息 ， 如 它 的 重量 、 制 造 商 名 
称 、 入 库 时 间 。 在 上 述 例子 中 ， 维 表 就 是 电影 和 用 户 的 诸多 相关 信息 ， 如 电影 的 上 映 日 
期 、URL， 用 户 的 年 龄 、 职 位 、 邮 政 编码 ， 等 等 。 


对 于 数据 仓库 来 讲 ， 采 用 规范 化 模型 的 方案 则 类 似 于 OLTP 数据 库 的 设计 。 按 照 实体 创 
建 和 设计 表 ， 并 要 求 遵从 数据 库 第 三 范式 (Third Normal Form，3NF)， 即 属性 全 面 依赖 
于 主键 。 在 零售 电 商 业务 场景 中 ， 商 品 表 包含 商品 名 ( 因 其 完全 依赖 于 商品 ID)， 但 该 
表 中 不 应 该 存在 制造 商 名 称 ( 因 其 不 依赖 于 商品 ID)。 于 是 ， 基 于 规范 化 DWH (Data 
Warehouse) 模式 的 查询 往往 会 涉及 一 连 串 的 关联 操作 。 


一 般 而 言 ， 多 维度 设计 方案 能 够 对 分 析 性 查询 起 到 简化 和 加 速 的 作用 ， 而 规范 化 设计 方案 
更 有 利于 更 新 操作 。 

在 电影 评分 的 例子 中 ， 我 们 选择 采用 维度 模型 的 数据 仓库 ， 这 是 因为 它 更 适用 于 Hadoop 
分 析 。 我 们 稍 后 会 详细 探讨 这 一 点 。 
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现在 快速 回顾 维度 设计 的 基本 概念 ， 对 基于 Hadoop 设计 ETL 过 程 或 数据 仓库 而 言 ， 这 些 
概念 非常 实用 。 











粒度 

粒度 〈grain) 是 指 事实 表 的 粒度 大 小 。 事 实 表 中 的 一 条 记录 代表 什么 ? 一 个 包含 多 个 商 
品 的 订单 ? 还 是 一 个 大 订单 中 的 单个 商品 ?出 于 一 致 性 分 析 的 要 求 ， 事 实 表 中 的 所 有 事 
实 记录 必须 是 同一 粒度 的 。 粒 度 应 该 尽 可 能 地 细小 ， 以 便 用 户 通过 分 析 数 据 回 答 意 想 不 
到 的 问题 。 在 这 个 例子 中 ， 粒 度 为 一 个 用 户 对 某 部 电影 的 评分 。 

可 加 性 

事实 表 中 的 有 些 字段 是 可 以 直接 相 加 的 (如 以 美元 为 单位 的 销售 额 )， 有 些 不 能 相 加 
(如 电影 的 评分 )。 前 者 可 以 进行 求 和 ， 对 于 后 者 通常 需要 计数 或 者 求 平 均值 。 在 本 例 
中 ， 评 分 对 应 的 事实 表 不 满足 可 加 性 ， 但 可 以 求 取 平 均值 。 

聚合 事实 表 

这 些 是 为 了 加 速 查询 而 构建 的 细 粒 度 的 事实 表 的 聚合 。 聚 合 事实 表 (aggregate fact 
table) 与 细 粒 度 事实 表 (granular fact table) 均 可 以 通过 BI 工具 进行 访问 ， 用 户 可 以 根 
据 分 析 所 需 的 粒度 选择 合适 的 表 。 在 本 例 中 ， 存 储 每 部 电影 的 最 新 平均 分 值 的 表 就 是 这 
样 一 张 聚 合 事实 表 。 

事实 表 

事实 表 拥 有 一 个 或 多 个 外 键 (Foreign Key，FK) ， 这 些 外 键 的 值 会 参照 维 表 。 事 实 表 的 
主键 (Primary Key，PK) 通常 是 一 系列 外 键 的 组 合 ， 这 些 外 键 能 够 唯一 地 确定 一 条 记 
录 。 在 本 例 中 ， 列 user_id、movie_id 以 及 timestamp 能 够 唯一 地 确定 一 条 事实 记录 。 










































































维 表 
维 表 是 各 种 查询 约束 (如 查询 10~23 岁 年 龄 段 的 用 户 ) 以 及 报表 标签 的 源头 。 
日 历 维度 


日 历 维度 是 一 种 特殊 的 维度 类 型 ， 附 加 在 大 多 数 的 事实 表 和 一 些 维 表 上 ， 比 简单 的 日 期 
维度 更 为 丰富 。 在 本 例 中 ， 如 果 想 分 析 电 影评 分 是 否 会 在 假期 上 升 ， 我 们 不 需要 使 用 
SQL 计算 圣诞 市 假期 时 间 ， 而 是 动态 地 查找 日 历 维 度 ， 了 解 相关 的 信息 。 

缓慢 变化 的 维度 

有 一 些 维度 会 随 着 时 间 发 生变 化 ， 如 用 户 地 址 变迁 、 制 造 商 倒闭 、 产 品 线 变 更 名 称 ， 等 
等 。 该 问题 有 多 种 处 理 方式 ， 最 常用 的 无 外 乎 以 下 两 种 : 要 么 把 已 存在 的 旧 值 修改 为 新 
的 值 ， 要 么 使 用 新 值 添加 一 条 新 的 记录 ， 并 将 其 标记 为 当前 值 ， 将 旧 的 标记 为 废弃 。 前 
者 意味 着 数据 的 就 地 重 写 ， 以 及 相关 聚合 事实 表 的 重建 。 后 者 则 不 需 修改 历史 和 重新 聚 
合 表 。 在 本 例 中 ， 用 户 数 据 集 也 包含 缓慢 变化 中 的 维度 ， 上 文中 提 及 的 两 种 策略 均 会 用 
到 。 我 们 通过 更 改 用 户 信 息 表 中 已 存在 的 值 ， 对 数据 进行 更 新 。 这 里 还 会 有 一 个 数据 
集 作为 用 户 历 史 信 息 表 ( 即 user_history 表 )， 包 含 每 次 更 新 时 的 新 值 。 两 种 策略 均 会 使 
用 ， 为 不 同 的 使 用 模式 提供 最 佳 的 访问 方式 : 对 用 户 的 最 新 信息 感 兴趣 则 使 用 用 户 信息 
表 ， 对 用 户 的 历史 信息 感 兴趣 则 使 用 用 户 历史 信息 表 。 
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a re % 
10.5 ”数据 仓库 的 Hadoop 实 践 
发 展 到 今天 ， 存 储 在 OLTP 数据 库 中 的 数据 均 可 以 保存 到 Hadoop 中 。 然 而 ， 二 者 的 存储 
是 不 同 的 ， 与 OLTP 数据 库 中 的 数据 访问 模式 相 比 ，Hadoop 上 数据 的 访问 模式 截然 不 同 。 
OLTP 数据 库 可 以 快速 进行 原子 级 的 插入 、 更 新 、 删 除 操作 ， 同 时 还 能 够 保证 数据 的 完整 
性 。 同 一 时 刻 通 常 只 有 一 条 记录 被 操作 。 来 自 应 用 程序 的 一 次 更 新 或 删除 操作 会 涉及 多 张 
表 ， 直 接 涉 及 的 表 越 少 ， 越 方便 使 用 。 因 此 ， 数 据 会 以 高 度 规 范 化 的 形式 存储 在 OLTP 数 
据 库 中 ， 正 如 10.3 节 提 到 的 那样 。 
10.4 节 已 经 谈 到 ， 数 据 仓库 中 的 数据 存储 可 以 使 用 维度 模型 或 者 是 规范 化 模型 。 在 本 章 
中 ， 对 于 Hadoop 上 的 数据 存储 方案 ， 我 们 选用 前 者 。 


10.6 ”架构 设计 
图 10-4 所 示 为 Hadoop 数据 仓库 的 顶层 架构 设计 。 
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10-4: Hadoop 数据 仓库 的 顶层 架构 设计 


从 数据 仓库 的 角度 来 讲 ， 我 们 需要 将 三 类 数据 集 从 OLTP 数据 库 导入 Hadoop: 可 以 被 评 
分 的 电影 列表 、 可 以 对 电影 进行 评分 的 用 户 列 表 、 不 同 用 户 对 电影 的 评分 。 电 影 数据 集 的 
导入 任务 可 以 通过 Sqoop 来 完成 。 每 次 Sqoop 任务 将 全 量 的 电影 信息 导入 ， 禾 盖 已 有 的 数 
据 集 即 可 。 对 于 用 户 和 打分 的 数据 ， 要 导入 的 是 新 增 记 录 和 已 有 记录 的 更 新 。 这 就 是 所 请 
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的 增 量 导入 ， 即 基于 先前 导入 的 数据 渐进 式 地 导入 数据 。 这 两 种 数据 集 均 有 两 种 变 体 :一 
类 是 包含 所 有 历史 信息 、 更 新 时 追加 记录 的 数据 集 (对 于 打分 数据 是 user_rating_fact， 对 
于 用 户 数据 是 user_history) ， 另 一 类 是 更 新 操作 原 地 生效 的 数据 集 (对 于 打分 数据 是 user_ 
rating， 对 于 用 户 数据 则 是 user) 。 每 次 执行 Sqoop 增 量 导 入 任务 时 ， 首 先 要 更 新 到 包含 全 
部 历史 信息 的 数据 集 ， 然 后 将 增 量 合并 到 原 地 更 新 的 数据 集 上 。 

填充 完毕 之 后 ， 会 使 用 所 有 这 些 数据 集 在 Hadoop 上 生成 一 些 聚 合 数据 集 (相关 知识 详 见 
10.6.4 节 )， 包 括 所 有 电影 最 近 的 平均 得 分 、 用 户 对 某 一 电影 的 打分 次 数 ， 等 等 。 这 些 聚合 
产生 的 表 稍 后 会 导出 至 EDW 中 ， 供 各 种 工具 和 不 同 用 户 访问 。 以 上 所 有 的 处 理 均 可 以 通 
过 协调 调度 工具 (如 Oozie) 进行 调配 。BI 工 具 可 以 直接 查询 Hadoop 上 未 导入 数据 仓库 
的 全 部 数据 。 

接 下 来 ， 我 们 基于 本 例 进一步 讨论 数据 建 模 、 数 据 存储 、 反 向 规范 化 、 数 据 处 理 以 及 协调 
调度 的 问题 。 


10.6.1 数据 建 模 及 存储 
本 节 讨 论 如 何在 Hadoop 上 对 MovieLens 数据 集 进行 建 模 和 存储 。 


1. 存储 引擎 的 选择 

我 们 首先 考虑 选择 HDFS 还 是 HBase 作为 存储 。 这 个 问题 的 答案 取决 于 数据 的 访问 模式 
(参见 第 1 章 )。 在 数据 仓库 的 应 用 场景 中 ， 你 可 以 使 用 Hadoop 执行 ETL 工具 的 一 些 任 
务 。 在 大 多 数 数据 仓库 的 实现 中 ，ETL 都 要 执行 批 处 理 任 务 : 将 每 天 的 数据 从 OLTP 系统 
中 提取 出 来 ， 进 行 批量 处 理 ， 然 后 批量 加 载 到 数据 仓库 中 。 使 用 批 处 理 的 方式 执行 ETL 主 
要 有 两 大 原因 ， 其 一 ，ETL 处 理 中 的 聚合 操作 原本 就 需要 整个 时 间 周 期 的 数据 。 其 二 ， 批 
量 处 理 效率 更 高 ， 缩 得了 ETL 的 处 理 时 长 。 


另外 ， 通 过 BI 工 具 下 发 的 聚合 类 的 查询 或 复杂 的 分 析 语句 ， 即 需要 扫描 全 表 数 据 执行 聚 
合 操作 的 查询 ， 均 可 以 直接 在 Hadoop 上 运行 。 以 MovieLens 数据 为 例 ， 类 似 的 一 个 查询 
就 是 “统计 年 龄 21~30 岁 的 女性 ， 有 多 少 人 会 给 《死因 漫步 》(1995) 打出 不 低 于 3 分 的 
评分 ”。 执 行 这 条 语句 需要 读 取 所 有 年 龄 在 21~30 岁 之 间 的 女性 的 数据 。 通 常 来 说 ， 这 个 
数据 量 即便 建立 索引 并 对 表 进 行 随机 访问 ， 也 无 法 高 效 地 访问 数据 。 

上 面 提 及 的 这 种 访问 模式 非常 适合 访问 存储 在 HDFS 中 的 数据 ， 因 为 这 里 需要 的 不 是 高 性 
能 的 随机 读 取 ， 而 是 较 高 的 扫描 性 能 。 因 此 ， 我 们 将 数据 仓库 的 数据 存储 在 HDFS 上 。 

2. 反 范 式 设计 

正如 前 面 提 到 的 那样 ， 数 据 导入 Hadoop 之 前 ， 通 常会 进行 反 向 规范 化 处 理 。 这 样 做 有 副 
作用 ， 会 带 来 数据 元 余 ， 但 也 有 好 处 ， 可 以 为 分 析 提 速 。 在 类 似 Hadoop 这 样 的 系统 中 ， 
进行 多 次 关联 操作 并 非 最 佳 做 法 ， 涉 及 小 的 维 表 时 尤其 如 此 。 


让 我 们 来 看 一 个 例子 。 在 这 个 例子 中 ， 职 位 表 是 一 张 小 表 ， 并 且 几 乎 不 会 发 生 更 改 。 而 
且 ， 大 多 数 查 询 只 要 涉及 职位 表 ， 势 必 会 查 用 户 信息 表 。 因 此 我 们 有 两 种 方案 。 


。 我 们 可 以 在 Hadoop 中 分 别 维护 两 个 数据 集 ， 用 户 信息 表 和 职位 表 。 
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。 我 们 可 以 对 两 个 表 进 行 反 向 规范 化 处 理 ， 实 际 就 是 握 弃 了 访问 职位 表 ID 列 (occupation. 
id) 的 需求 ， 将 职位 信息 直接 幢 入 Hadoop 上 的 用 户 信息 表 中 。 


我 们 实际 采用 后 者 一 一 将 两 张 表 做 反 向 规范 化 ， 生 成 单个 用 户 信 息 表 一 一 因为 在 Hadoop 
中 ， 用 职位 的 字符 串 值 代替 职位 ID ， 对 存储 的 影响 很 小 。 而 且 这 样 避免 了 使 用 occupation. 
id 进行 关联 ， 性 能 提高 了 很 多 。 

现在 ， 让 我 们 把 注意 力 转 向 电影 信息 表 (movie)。 常 与 电影 信息 表 一 起 使 用 的 还 有 电影 类 
别 对 照 表 (movie_genre) 和 类 别 表 (genre)。 这 里 的 类 别 表 与 上 面 的 职位 表 相 似 ， 都 是 较 
小 的 维 表 。 而 且 该 表 总 是 会 与 电影 表 和 电影 类 别 对 照 表 发 生 关 联 。 对 应 电影 数据 来 讲 ， 我 
们 也 有 如 下 两 种 方案 。 


。 我 们 在 Hadoop 中 维护 三 个 数据 集 电影 信息 表 、 电 影 类 别 对 照 表 以 及 类 别 表 。 这 样 做 
的 好 处 是 可 以 简化 数据 采集 流水 线 ， 直 接 从 OLTP 数据 库 中 将 数据 复制 过 来 即 可 。 但 这 
样 做 也 有 人 缺点， 查询 时 总 是 要 关联 这 三 个 表 才 行 。 

。 我 们 可 以 对 电影 信息 表 、 电 影 类 别 对 照 表 以 及 类 别 表 进行 反 向 规范 化 处 理 ， 生 成 单个 数 
据 集 后 导入 Hadoop。 这 样 一 来 ， 我 们 就 需要 在 数据 采集 流水 线 中 诡 加 额外 的 步骤 ， 或 
者 直接 导入 到 Hadoop 后 执行 一 个 数据 表 合 并 的 任务 。 因 为 所 有 的 数据 均 在 Hadoop 的 
同一 个 数据 集中 ， 所 以 这 样 做 能 够 让 查询 处 理 更 为 快捷 。 一 部 电影 可 以 对 应 多 个 类 型 ， 

因此 我 们 很 可 能 会 将 一 部 电影 的 所 有 类 别 存储 到 衍生 数据 类 型 (derived data type) 中 ， 

比如 数组 〈 或 者 以 逗号 分 隔 的 列表 )。 


此 处 我 们 选择 后 者 一 一 对 电影 信息 表 、 电 影 类 别 对 照 表 以 及 类 别 表 进 行 反 向 规范 化 处 理 ， 

生成 Hadoop 上 的 单一 数据 集 一 一 这 样 可 以 让 查询 变 得 简洁 、 高 效 。 

到 此 为 止 ， 我们 已 经 在 Hadoop 上 创建 了 两 个 数据 集 : 一 个 是 用 户 信 息 表 ， 包 含 每 个 用 户 的 

所 有 信息 ， 每 条 记录 有 一 个 字符 串 类 型 的 字段 保存 着 用 户 的 职位 名 称 ， 另 一 个 则 是 电影 信 

息 表 ， 包 含 每 部 电影 的 全 部 信息 ， 每 条 记录 有 一 个 复合 类 型 的 字段 保存 该 电影 的 所 有 类 别 

信息 。 接 下 来 ， 让 我 们 来 关注 最 后 一 张 表 : 用 户 打 分 表 。 你 可 能 会 问 应 该 什么 时 候 对 数据 

进行 规范 化 设计 。 从 技术 实现 角度 ， 对 于 用 户 打分 表 ， 我 们 也 有 如 下 两 种 处 理 方案 。 

。 我 们 拥有 三 个 数据 集 ， 包 括 用 户 信息 表 、 电 影 信 息 表 以 及 用 户 评分 表 。 许 多 查询 需要 借 
助 关联 操作 才能 完成 。 

。 在 Hadoop 上 我 们 可 以 只 保留 一 个 数据 集 〈 即 用 户 评分 表 )， 将 所 有 的 表 进 行 反 向 规范 
化 处 理 (举例 来 讲 就 是 ， 一 个 用 户 对 每 部 电影 的 每 次 评分 记录 均 包 含 对 应 电影 和 该 用 户 
的 全 部 信息 )。 这 样 一 来 ， 不 需要 借助 关联 ， 查 询 也 可 以 变 得 更 为 简单 。 但 是 ， 这 种 做 
法 会 让 我 们 的 数据 采集 流水 线 变 得 相当 复杂 。 看 起 来 这 么 做 有 些 过 犹 不 及 了 ， 不 是 吗 ? 

这 次 ， 我 们 选择 前 者 ， 放 弃 进 行 反 向 规范 化 。 这 里 保持 三 个 数据 集 在 Hadoop 上 : 用 户 信 

息 表 、 电 影 信息 表 以 及 用 户 评 分 表 。 鉴 于 以 下 若干 原因 ， 我 们 要 让 这 些 数 据 集 彼 此 独立 。 

。 将 小 表 反 向 规范 化 处 理 ( 如 合并 ) 成 较 大 的 数据 集 ,这 样 的 反 向 规范 化 才 是 合理 和 划算 的 。 
前 两 次 的 方案 选取 也 遵循 了 这 样 的 原则 ， 因 此 职位 合并 到 了 用 户 信息 表 ， 而 类 别 和 电影 
类 别 对 照 表 合并 到 了 电影 信息 表 。 而 对 于 用 户 评分 表 来 讲 ， 用 户 信息 表 和 电影 信息 表 的 
数据 量 已 经 相当 庞大 , 执行 合并 操作 将 非常 耗 时 , 况且 查询 单个 表 也 节省 不 了 太 多 时 间 。 
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。 如 果 做 了 反 向 规范 化 处 理 , 信息 更 新 起 来 将 会 非常 艰难 。 如 果 一 个 用 户 更 新 了 她 的 年 龄 ， 
那么 接 下 来 就 要 对 她 的 每 条 打分 记录 进行 更 新 。 需 要 更 新 的 数据 极 多 , 这 样 做 很 不 合理 。 


在 使 用 Hadoop 的 时 候 ， 决 不 能 不 惜 一 切 代价 地 避免 关联 操作 ， 而 是 应 当 参 
考 将 数据 合并 到 一 张 表 的 成 本 。 如 果 成 本 不 高 ， 那 么 可 以 考虑 进行 反 向 规范 
化 (如 进行 预先 聚合 处 理 )。 而 具体 的 选择 则 取决 于 数据 模式 、 数 据 分 布 、 
数据 集 大 小 以 及 使 用 的 工具 。 关 联 操作 较为 费时 ， 部 分 原因 在 于 没有 一 种 机 
制 能 保证 两 个 数据 集 的 对 应 记录 〈 即 满足 同一 个 关联 条 件 的 记录 ) 在 集群 的 
同一 个 节点 上 ， 而 将 数据 集 通 过 网 络 进行 流 式 分 发 是 需要 花费 时 间 并 消耗 资 
源 的 。 将 数据 合并 成 一 个 数据 集 则 保证 了 一 条 记录 的 各 种 字段 (合并 前 来 自 
不 同 数据 集 ) 存在 于 同一 个 节点 上 。 























因此 ， 在 我 们 的 架构 设计 中 ，Hadoop 上 会 有 三 个 数据 集 用 户 信息 表 、 电 影 信息 表 以 及 
用 户 评分 表 。 尽 管 Hadoop 不 是 传统 意义 上 的 数据 仓库 ， 并 不 适合 用 ERD 来 描述 。 图 10-5 
展示 了 Hadoop 上 数据 模型 的 ERD 描述 。 要 注意 的 是 ， 职 位 表 (occupation) 已 经 反 向 规 
范 化 到 用 户 信息 表 (user) 中 ， 电 影 类 别 对 照 表 (movie_genre) 与 类 别 表 (genre) 已 经 反 
向 规范 化 到 电影 信息 表 (movie) 中 。 


























pid INT 
> genderCHARIT) ?id INT ) id INT 

> zip_code VARCHA... $timestamp DATETIME ® title VARCHAR(128) 
@ age INT ? user_id INT @ release_date DATE 


-| rating INT 
$Y movie_id INT 


> video_release_date DATE 
Simdb_url VARCHAR!(45) 
> genres VARCHARI(128) 


@ occupation VARCH... 
last_modified DAT... 















p> 
ss 


10-5: MovieLens 数据 集 的 Hadoop 数据 建 模 

以 上 虽然 不 是 最 终 的 架构 设计 ， 但 已 非常 接近 了 ， 你 很 快 就 会 明白 这 一 点 。 

3. Hadoop 中 的 数据 更 新 

本 节 讨 论 如 何 获得 数据 的 更 改 ， 并 将 其 存储 到 Hadoop 上 。 这 里 的 OLTP 模式 支持 记 

录 级 别 的 更 新 。 举 例 来 说 ， 用 户 可 以 更 新 他 的 邮政 编码 ， 或 者 更 新 先前 对 电影 打 的 分 

数 。Hadoop 上 对 应 的 数据 模型 需要 支持 这 种 更 新 ， 这 一 点 非常 重要 。 但 是 ， 我 们 不 能 在 

Hadoop 上 简单 地 原 地 重 写 更 新 后 的 记录 ， 原 因 如 下 。 

。 我 们 将 数据 存储 到 了 HDFS 上 ， 而 HDFS 是 不 支持 原 地 更 新 的 。 进 行 更 新 需要 增加 一 
些 逻 辑 上 的 支持 。 

。 原 地 更 新 后 ， 数 据 跟踪 就 无 法 进行 了 。 举 例 来 说 ， 这 里 可 能 会 有 回 看 的 需求 ， 统 计 首 次 
评分 后 三 个 月 内 更 新 评分 的 用 户 占 比 。 原 地 更 新 后 ， 先 前 的 数据 就 会 丢失 ， 这 样 的 分 析 
也 就 无 法 执行 了 。 
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让 我 们 逐个 讨论 支持 更 新 的 数据 集 。 用 户 数据 集中 有 一 列 名 为 last_modified， 存 储 着 指定 
用 户 上 次 更 新 信息 的 时 间 。 而 另外 一 个 支持 更 新 的 数据 集 是 用 户 评 分 表 ， 包 含 一 个 时 间 蕉 
类 型 的 列 ， 存 储 着 评分 分 数 更 新 的 时 刻 。 如 果 分 数 从 未 更 新 过 ， 则 该 字段 存储 第 一 次 评分 
发 生 的 时 刻 。 以 上 两 个 数据 集 只 要 发 生 更 新 ， 对 应 字段 的 时 间 戳 字段 就 会 更 新 。 如 此 一 
来 ， 如 果 可 以 追踪 这 个 字段 的 更 新 历史 ， 那 么 我 们 也 应 该 能 够 根据 时 间 将 不 同 的 记录 更 新 
记 下 来 。 

在 Hadoop 上 的 方案 是 这 样 的， 我 们 要 创建 一 张 不 重 写 ， 只 进行 追加 的 表 ， 而 不 是 对 记录 
原 地 重 写 。 拿 用 户 数据 集 来 说 ， 这 里 要 将 所 有 用 户 不 同时 间 的 数据 均 存 储 下 来 。 这 个 只 支 
持 追 加 的 表 称 为 user_history。 而 对 于 用 户 评分 数据 集 ， 我 们 将 只 支持 追加 的 表 称 为 user_ 
rating_fact， 因 为 这 张 表 代表 着 一 直 示 被 更 新 、 未 曾 改变 的 用 户 评分 数据 。 这 里 借用 了 数据 
仓库 中 的 一 个 术语 : 事实 (fact)。 

数据 采集 任务 的 执行 过 程 中 ， 每 次 都 会 获取 一 张 新 的 记录 列表 ， 要 么 是 需要 插入 Hadoop 
数据 集 的 ， 要 么 是 对 已 有 数据 进行 更 新 的 。 这 些 新 记录 会 追加 到 Hadoop 数据 集 尾 部 。 


让 我 们 看 一 个 例子 : 假设 OLTP 数据 库 中 第 一 天 的 用 户 数据 集 如 表 10-1 所 示 。 
表 10-1: OLTP 数 据 库 中 未 发 生 更 新 的 用 户 信息 表 







































































ID 邮政 编码 | 年龄 ”| 职位 ID ”| 上 次 更 新 时 间 惟 
1 85711 24 20 1412924400 
2 94043 53 14 1412924410 

















Hadoop 上 对 应 的 数据 集 如 表 10-2 所 示 。 
表 10-2: Hadoop 上 未 发 生 更 新 的 用 户 数据 集 








ID 邮政 编码 | 年龄 ”| 职位 上 次 更 新 时 间 戳 
1 85711 24 技术 员 1412924400 
2 94043 53 其 他 1412924410 

















现在 ， 我 们 假设 第 二 天 用 户 ID 为 1 的 用 户 更 新 了 他 的 邮政 编码 。 另 外 ， 这 里 新 增 了 一 个 
用 户 ID 为 3 的 用 户 。 那 么 在 第 二 天 ，OLTP 数据 库 更 新 后 的 表 将 如 表 10-3 所 示 。 


表 10-3: OLTP 数 据 库 中 更 新 操作 发 生 后 的 用 户 信息 表 




















ID 邮政 编码 上 次 更 新 时 间 惟 
1 94301 1413014400 
2 94043 1412924410 
3 32067 1413014420 














注意 ， 表 中 用 户 ID 为 1 的 用 户 记录 中 ， 邮 政 编码 (zip_code) 一 列 的 值 已 经 发 生 了 原 地 更 
新 ， 从 85711 变 为 94301， 而 记录 上 次 更 新 时 间 戳 的 列 (last_updated) 也 从 1412924400 变 
成 了 1413014400。 还 有 一 点 要 注意 的 是 ， 用 户 ID 为 3 的 用 户 记 录 添 加 到 了 表 中 。 
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在 Hadoop 上 ， 更 新 后 的 user_history 数据 集 如 表 10-4 所 示 。 
表 10-4: Hadoop 上 更 新 后 的 用 户 历史 数据 集 




















ID 性 别 上 次 更 新 时 间 戳 
1 男 1412924400 
2 女 1412924410 
1 男 1413014400 
3 男 1413014420 














注意 ， 有 两 条 记录 添加 到 了 Hadoop 数据 集中 。 新 加 的 第 一 条 记录 代表 的 更 新 针对 了 为 1 
的 用 户 ， 新 加 的 第 三 条 记录 则 添加 了 一 个 用 户 DD 为 3 的 用 户 。 这 种 做 法 与 数据 库 维 护 事 
务 日 志 的 方式 类 似 。 和 针对 数据 的 全 部 更 新 和 插入 都 进行 了 跟踪 和 记录 。 


你 可 能 已 经 猪 到 了 ， 以 上 方式 保留 了 历史 信息 ， 但 Hadoop 上 的 查询 却 因此 变 得 复杂 了 许 
多 。 举 例 来 说 ， 如 果 想 查询 用 户 DD 为 1 的 用 户 的 邮政 编码 ， 那 么 需要 扫描 整个 数据 集 ， 
并 根据 last_updated 列 的 值 挑 选 最 近 一 条 记录 。 这 样 会 使 查询 变 慢 ， 写 起 来 也 很 麻烦 。 与 
此 同时 ， 我 们 还 想 获得 一 段 时 间 之 后 的 用 户 表 的 更 新 操作 以 及 用 户 数据 集 的 改变 等 准确 数 
据 。 与 之 类 似 的 是 ， 如 果 有 需求 查看 指定 用 户 对 某 部 电影 的 评分 ， 那 么 就 要 扫描 该 电影 的 
所 有 评分 数据 ， 并 基于 数据 中 的 时 间 字 段 挑选 最 近 一 次 的 分 数 。 

对 此 ， 我 们 推荐 的 解决 方案 是 这 样 的 : Hadoop 对 每 一 个 数据 集 均 保存 两 份 副本 。 对 于 用 户 
数据 集 来 说 ， 一 份 副 本 称 为 user_history， 在 Hadoop 上 按照 之 前 描述 的 方式 存储 用 户 的 信 
息 。 作 为 一 个 只 支持 追加 的 数据 集 ， 它 能 够 保存 用 户 信息 表 中 的 所 有 更 新 或 新 增 的 行 ， 以 
供 跟踪 使 用 。 第 二 份 副本 称 为 user， 为 每 个 用 户 仅 存储 一 条 记录 ， 以 提供 对 最 新 状态 的 查 
询 。 与 之 类 似 ， 对 于 评分 数据 集 来 讲 ， 第 一 份 副本 为 user_rating_fact， 存 储 包括 更 新 在 内 
的 所 有 评分 记录 ， 第 二 份 副本 为 user_rating， 存 储 每 部 电影 每 个 用 户 的 最 新 评分 记录 。 田 
外 一 个 选择 是 这 样 的 : 我 们 对 甚 中 一 份 副 本 不 进行 完全 物化 ， 而 是 获得 基于 另 一 份 副 本 的 
非 物 化 视图 。 然 而 ， 这 种 方式 的 性 能 会 比 预先 生成 物化 的 数据 集 差 许多 。 


两 类 数据 集 相 比较 ，user_history 与 user_rating_fact 数据 集 适 用 于 需要 了 解 用 户 和 评分 数据 
变化 序列 的 查询 ， 而 user 和 user_rating 数据 集 则 适用 于 无 需 关 注 用 户 或 评分 更 改 粒 度 ， 仅 
需 最 新 值 的 查询 。 同 一 数据 集 的 两 份 副 本 拥有 相同 的 数据 模式 ， 只 是 在 存储 的 数据 上 拥有 
不 同 的 语义 。 

对 于 user 或 user rating 这 样 允 许 更 新 的 数据 集 来 讲 ， 涉 及 对 它们 的 查询 时 ， 需 要 不 同 的 访 
问 模 式 来 访问 数据 的 两 份 副本 ， 原 因 有 以 下 两 点 。 

。 查询 数据 集 的 当前 值 。 比 如 希望 了 解 用 户 当前 最 新 信息 的 查询 。 

。 查询 历史 值 。 比 如 有 查询 想 要 了 解 用 户 是 怎样 修改 职位 或 邮政 编码 的 。 

我 们 假定 访问 当前 值 的 查询 比 访问 历史 值 的 查询 要 多 很 多 。 典 型 的 数据 仓库 不 会 为 了 加 速 
访问 而 另外 维护 表 的 一 份 副本 ， 对 于 user_rating_fact 这 样 的 事实 表 尤 其 如 此 。 这 是 因为 存 
储 空间 十 分 珍贵 。 然 而 在 Hadoop 中 ， 存 储 空间 没有 那么 珍贵 。 通 过 数据 集 的 重复 加 速 大 
多 数 查询 ， 这 样 的 投资 非常 划算 。 
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对 于 用 户 数据 和 评分 数据 分 别 维护 两 个 数据 集 ， 相 关 工 作 流 见 图 10-6。 





























来 自 于 采集 ， 
一 一 一 一 一 一 一 ->| USer ratin _fact 
流水 线 '; 

















图 10-6: 用 户 和 评分 数据 ， 每 个 都 有 两 个 数据 集 的 工作 流 


数据 采集 流水 线 在 每 次 执行 时 ， 都 会 将 新 的 插入 或 更 新 应 用 到 user_history 和 user_rating_ 
fact 数据 集 上 。 接 下 来 ， 单 独处 理 的 流程 将 会 触发 合并 任务 ， 进 而 将 新 的 插入 或 更 新 合并 
到 已 存在 的 user 和 user_rating 数据 集 上 ， 由 此 分 别 产 生 两 个 已 经 执行 过 插入 或 更 新 的 新 数 
据 集 。 想 进一步 了 解 合并 ， 请 参阅 第 4 章 。 

注意 ， 在 OLTP 模式 中 ， 电 影 信 息 表 并 没有 一 个 last_updated 或 类 似 的 列 。 这 表明 此 处 对 
于 该 数据 不 支持 更 新 ， 即 使 支持 更 新 ， 也 不 会 去 跟踪 变化 。 因 此 ， 我 们 不 会 针对 Hadoop 
中 的 电影 数据 集 跟踪 更 新 。 对 于 OLTP 数据 库 中 新 增 的 电影 ， 我 们 只 是 在 Hadoop 中 将 它 
们 追加 到 电影 数据 集 的 尾部 。 


在 Hadoop 上 ， 我 们 最 终 采用 的 模式 如 图 10-7 所 示 。 


4. 存储 格式 及 压缩 算法 的 选择 

现在 我 们 需要 确定 ， 对 于 HDFS 的 数据 集 ， 应 当 采 用 哪 种 文件 格式 和 压缩 算法 。 关 系 型 数 
据 通常 是 表 中 的 结构 化 数据 ，CSV、Avro 和 Parquet 显然 都 是 我 们 的 候选 格式 。 正 如 第 1 
章 提 到 的 那样 ， 从 性 能 、 压 缩 和 模式 管理 方面 考虑 ，CSYV 不 是 最 佳 选择 。 这 些 对 于 数据 仓 
库 而 言 都 是 至 关 重 要 的 。 在 Avro 和 Parquet 之 间 进 行 选 择 ， 我 们 需要 好 好 思索 一 番 。 二 者 
都 是 包含 数据 描述 模式 的 二 进 制 格式 。 

Avro 的 优点 之 一 在 于 支持 模式 演进 。 这 就 意味 着 当 OLTP 模式 发 生 改 变 时 ， 我 们 的 ETL 
操作 不 会 被 打 断 。ETL 开发 者 和 管理 人 员 都 需要 关注 这 个 问题 : 如 果 模 式 维护 引入 不 恰当 
的 模式 ， 那 么 ETL 操作 有 可 能 因此 失败 。 上 面 提 到 的 优点 相当 重要 。 
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jid INT 

O genderCHARI1) Pid INT ”id INT 

Ozip_code VARCHA... $timestamp DATETIME © title VARCHAR(128) 

age INT ? user_id INT © release_date DATE 
[| ocoupation VARCH... | rating INT O video_release_date DATE 


? movie_id INT Oimdb_url VARCHAR(45) 


O genres VARCHAR(128) 


人 last_modified DAT... 














@id INT 
O gender CHARI1) 

O zip_code VARCHAR(10) 
© age INT 

® occupation VARCHAR(25) 


信 last_modified DATETIME @id INT 


人 timestamp DATETIME 
user_id INT 
合 rating INT 

? movie_id INT 











图 10-7，MovieLens 数据 集 的 Hadoop 数据 模型 


而 Parquet 格式 恰恰 有 着 明显 的 性 能 优势 。 数 据 仓 库 中 的 事实 表 通 常 比较 宽 ， 这 是 因为 数 
据 会 与 许多 维 表 相 关 。 而 每 个 分 析 性 的 查询 或 聚合 操作 通常 只 会 涉及 一 小 部 分 列 。 这 里 提 
到 的 查询 针对 21~30 岁 的 女性 用 户 ， 因 此 不 应 访问 任何 记录 的 电影 类 型 字段 。 作 为 一 种 列 
式 存 储 格 式 ，Parquet 允许 跳 过 无 用 数据 所 在 的 数据 块 。 另 外 ，Parquet 表 提 供 了 极 佳 的 压 
缩 支持 ， 可 以 显著 地 节省 存储 空间 。 

选取 文件 格式 的 时 候 ， 我 们 需要 基于 对 应 数据 集 的 访问 方式 进行 考虑 。 通 常 的 规则 是 ， 行 
优先 存储 选用 Avro， 列 优先 存储 选用 Parquet。 

对 于 需要 支持 追加 的 数据 集 ( 即 user_history 和 user_rating_fact)， 我 们 推荐 使 用 Avro。 这 
些 数据 集 通过 采集 流水 线 产 生 ， 之 后 需要 合并 到 user 和 user_rating 数据 集 上 。 对 于 这 些 
数据 集 来 说 ， 执 行 合并 只 需 获 取 上 次 合并 与 本 次 合并 之 间 发 生 的 更 新 和 插入 数据 即 可 。 而 
且 ， 对 于 这 些 更 新 或 插入 ， 需 要 访问 的 是 整 条 记录 。 由 此 可 见 ， 使 用 Avro 存储 支持 追加 
的 数据 集 是 很 有 道理 的 。 


对 于 存储 在 HDFS 上 的 Parquet 数据 ， 推 荐 的 数据 块 大 小 为 256 MB 。 因 此 ， 
如 果 user 数据 集 压缩 后 的 大 小 并 非 比 推荐 的 数据 块 大 小 高 一 个 数量 级 ， 那 么 
还 是 用 Avro 存储 user 数据 集 更 好 一 些 。 

















对 于 user_rating 数据 集 ， 我 们 推荐 使 用 Parquet 格式 ， 因 为 这 里 有 一 张 比 较 大 的 事实 表 。 
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该 表 的 数据 量 会 快速 增加 ， 而 常见 的 查询 只 涉及 一 小 部 分 列 ， 这 种 应 用 场景 非常 适合 采用 
Parquet。 

对 于 user 和 movie 数据 集 ， 我 们 同样 推荐 使 用 Parquet 格式 。 这 是 因为 针对 这 些 数据 集 的 
聚合 查询 也 只 涉及 一 小 部 分 列 。 举 例 来 说 ， 如 果 要 回答 有 多 少年 龄 在 21~30 岁 的 女性 用 户 
给 《死因 漫步 》(1995) 的 评分 不 低 于 3 分， 那么 我 们 需要 查询 整个 用 户 数 据 集 ， 但 分 析 
所 需要 的 列 只 涉及 用 户 ID 和 年 龄 。 


至 于 压缩 方式 ， 如 第 1 章 提 到 的 那样 ，Snappy 是 最 常用 的 压缩 编码 之 一 。 无 论 数 据 集 究 竞 
使 用 Avro 还 是 Parquet 格式 ， 我 们 都 推荐 使 用 Snappy 压缩 算法 进行 压缩 。 


总 结 一 下 ， 表 10-5 列 出 了 不 同 数 据 集 的 存储 格式 和 压缩 方式 。 数 据 仓库 中 频繁 进行 小 部 
分 列 查 询 的 数据 集 最 好 使 用 列 式 存储 格式 ， 因 此 我 们 采用 Parquet。 支 持 数据 追加 的 数据 
集 user_rating_fact 和 user_history: 经 常会 在 ETL 流水 线 中 使 用 (尽管 直接 查询 也 会 
访问 到 它们 )， 以 生成 对 应 的 合并 后 的 表 。 因 此 ， 对 于 这 种 行使 用 方式 较 多 的 数据 集 ， 我 
们 采用 Avro 格式 。 


表 10-5: 不 同 数据 集 的 存储 格式 









































数据 集 存储 格式 | 压缩 算法 

movie Parquet Snappy 

user_history Avro Snappy 

USeT Parquet Snappy 

user_rating_fact Avro Snappy 

user_rating Parquet Snappy 
5. 分 区 


接 下 来 ， 我 们 需要 考虑 的 是 是 否 应 该 对 Hadoop 上 的 数据 集 进行 分 区 。 如 果 需 要 ， 应 该 按 
照 哪 一 列 进行 分 区 。 正 确 的 分 区 方式 能 够 减少 大 量 不 必要 的 IO 操作 ， 因 为 执行 该 查询 的 
执行 引擎 可 以 直接 跳 过 不 必要 的 数据 。 


要 想 正确 进行 分 区 ， 你 需要 了 解数 据 访问 模式 。 关 于 分 区 ， 这 里 总 共有 如 下 五 个 数据 集 需 


要 考虑 : movie、user、 user_history、user_rating 以 及 user_rating_fact。 


我 们 首先 关注 支持 追加 的 数据 集 : user_history 与 user_rating_fact。 甚 数据 的 产生 依赖 于 采 
集 流 水 线 每 次 运行 获取 的 新 的 更 新 和 插入 记录 。 然 而 ， 通 常情 况 下 ， 查 询 只 是 想 知 道 自 上 
次 运行 到 现在 ， 有 哪些 更 新 和 插入 添加 到 了 这 些 表 上 。 我 们 只 要 最 近 的 结果 ， 并 不 想 查 
询 历史 数据 ， 因 此 如 何 对 它们 进行 分 区 显得 至 关 重 要 。 我 们 按 天 对 这 些 数据 集 进 行 分 区 。 
(这 里 假设 有 足够 多 的 数据 让 分 区 的 数据 大 小 合理 ,尤其 是 对 于 user_history 来 说 。) 根据 
数据 量 的 大 小 ， 分 区 粒度 可 以 进行 调整 。 

通常 情况 下 ， 分 区 的 平均 大 小 至 少 要 达到 HDFS 数据 块 大 小 的 若干 倍 。 根 据 前 面 的 分 析 ， 
通常 HDFS 的 数据 块 大 小 应 该 达到 64 MB 或 128 MB ， 那 么 分 区 平均 大 小 的 典型 值 应 该 是 
1 GB。 如 果 每 天 评分 的 数据 比 1 GB 多 很 多 ， 那 么 可 以 按照 小 时 进行 分 区 。 从 另外 一 个 角度 
来 讲 ， 如 果 用 户 新 增 或 更 新 数 远 小 于 每 天 1 GB 的 数据 量 ， 那 么 可 以 按照 周 或 月 进行 分 区 。 
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现在 ， 让 我 们 关注 终端 用 户 会 查询 到 的 另外 三 个 数据 集 : movie、user 和 user_rating。 


以 电影 数据 集 为 例 ， 我 们 很 有 可 能 对 新 


影 的 评分 更 感 兴趣 ， 所 以 将 电影 数据 集 按 照 电 影 


的 上 映 日 期 进行 分 区 是 有 意义 的 。 然 而 ， 假 设 每 年 新 发 布 的 电影 有 1 万 到 2 万 部 ， 那 么 
某 一 年 的 电影 数据 集 大 小 最 多 就 是 几 百 MB 的 数量 级 。( 假 设 每 部 电影 的 平均 记录 大 小 为 
10 KB， 乘 以 1 万 部 ， 共 计 100 MB。) 这 个 数据 量 对 于 一 个 分 区 来 说 太 少 。 所 以 ， 就 电影 
数据 集 的 数据 量 来 讲 ， 我 们 不 建议 对 其 进行 分 区 。 
接 下 来 的 问题 是 ， 要 不 要 对 用 户 数据 集 进 行 分 区 ， 如 果 需 要 ， 那 么 应 该 根据 什么 来 进行 分 
区 。 用 户 信息 表 数 据 量 较 小 ， 我 们 不 对 该 数据 集 进行 分 区 。 
接 下 来 需要 关 广 的 是 最 后 一 个 ， 也 是 存在 争议 的 最 大 数据 集 ，user_rating。 我 们 有 以 下 几 
个 可 选 方案 。 
。 不 对 user_rating 进行 分 区 。 这 就 意味 着 每 次 查询 都 要 针对 整个 数据 集 进 行 ， 这 并 不 是 最 
优 的 做 法 。 另 外 ， 如 果 不 进行 分 区 ， 那 么 这 张 表 就 无 法 按照 分 区 更 新 ， 而 是 需要 重 写 整 
来 IO 负载 ， 无 论 是 读 还 是 写 的 时 间 都 会 过 分 拉 长 。 芳 虑 到 这 
张 表 的 数据 量 ， 这 个 方案 就 更 不 合适 了 。 
。 我 们 可 以 根据 每 个 评分 首次 产生 的 时 间 戳 ， 按 照 日 期 对 user_rating 进行 分 区 。 如 果 大 部 
分 查询 都 基于 评分 首次 产生 的 日 期 进行 (如 统计 过 去 七 天 的 新 增 评分 数 )， 那 么 按照 该 


个 数据 集 。 这 个 方案 会 带 


日 期 进行 分 









































区 是 有 意义 的 。 然 而 ， 在 每 次 进行 合并 处 理 时 ， 如 果 从 上 次 合并 到 现在 有 用 


户 更 新 了 自己 的 评分 ， 那 么 老 的 分 区 就 需要 更 新 了 。 

。 我 们 可 以 根据 每 个 评分 最 近 更 新 的 时 间 戳 ， 按 照 日 期 对 user_rating 进行 分 区 。 如 果 大 部 
分 查询 都 基于 评分 最 近 更 新 的 日 期 进行 (如 统计 过 去 七 天 全 部 电影 的 平均 评分 分 数 )， 
那么 按照 该 日 期 进行 分 区 是 有 意义 的 。 如 果 两 次 合并 间 发 生 了 更 新 ， 那 么 这 里 仍然 需要 


更 新 老 的 分 区 。 









































这 是 因为 这 张 表 对 于 每 个 用 户 每 部 电影 只 包含 一 条 记录 ， 而 这 条 记录 存 
储 着 该 用 户 对 该 电影 打出 的 最 近 评 分 值 。 一 位 用 户 更 新 了 对 某 一 部 电影 的 评分 ， 电 影 重 





新 获得 评分 ， 那 么 对 应 的 记录 就 需要 从 旧 的 分 区 中 移出 ， 移 到 最 近 的 时 间 分 区 中 。 
以 上 两 种 方式 选择 起 来 并 不 容易 。 决 定 选择 哪 一 种 取决 于 数据 在 大 多 数 情 况 下 如 何 访问 。 
在 本 例 中 ， 我 们 认为 评分 数据 通常 会 按照 上 次 更 新 时 间 进 行 访问 。 因 此 ， 我 们 选择 最 后 一 
种 方式 : 根据 每 个 评分 上 次 更 新 的 时 间 惟 ， 按 照 日 期 对 user_rating 进行 分 区 。 
总 结 一 下 ， 我 们 将 全 部 数据 集 的 分 区 策略 列 在 表 10-6 中 。 
表 10-6: 各 个 数据 集 的 分 区 策略 




















































































































数据 集 分 区 与 否 分 区 列 备注 

movie 不 分 区 不 存在 小 表 不 必 分 区 

user_history 按 天 分 区 用 户 信息 更 新 的 时 | 以 减少 使 用 该 数据 集 生 成 user 
间 惟 数据 集 的 IO 

user 不 分 区 不 存在 小 表 不 必 分 区 

user_rating_fact 按 天 分 区 用 户 更 新 电影 评分 | 以 减少 使 用 该 数据 集 生 成 user_ 
的 时 间 截 rating 数据 集 的 IO 

user_rating 按 天 分 区 用 户 更 新 电影 评分 | 以 减少 基于 用 户 最 新 评分 数据 
的 时 间 稚 进行 查询 的 IO 
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因为 以 上 五 个 数据 集 均 可 以 被 最 终 用 户 所 访问 ， 所 以 这 些 数据 集 都 会 存放 在 /data 目录 
(更 准确 地 说 是 /data/movielens 目录 ) 下 。 


10.6.2 ”数据 采集 

在 传统 的 ETL 处 理 过 程 中 ， 数 据 从 OLTP 数据 库 中 提取 出 来 ， 并 加 载 到 数据 仓库 中 。 
此 ， 我 们 也 希望 大 部 分 数据 来 自 OLTP 数据 存储 。 本 节 关 广 数据 从 OLTP 数据 存储 采集 至 
Hadoop 的 具体 细节 。 另 外 ， 相 关 的 非 关 系 型 数据 可 以 加 载 到 Hadoop 中 ， 还 可 以 集成 到 我 
们 的 数据 分 析 里 。 这 里 的 非 关 系 型 数据 包括 来 自 网 站 的 影评 、 来 自 Twitter 的 短评 等 。 

为 了 进行 举例 说 明 ， 本 节 关 注 关 系 型 数据 的 采集 。 第 8 章 和 第 9 章 涵盖 了 从 流 式 数据 源 
(如 网 络 日 志和 信用 卡 支付 数据 ) 中 采集 数据 的 内 容 。 

从 关系 数据 库 到 Hadoop 有 多 种 方式 可 以 完成 数据 的 采集 任务 ，Sqoop 是 迄今 为 止 最 为 流 
行 的 一 种 ， 本 章 将 主要 关注 这 个 工具 。 我 们 在 第 2 章 中 讨论 了 Sqoop 的 工作 原理 ， 并 分 
享 了 一 些 使 用 方面 的 小 窍门 。 本 章 主 要 探讨 Sqoop 在 特定 场景 下 如 何 使 用 。 另 外 ， 这 里 
还 可 以 使 用 Hadoop 集成 的 传统 ETL 工具 ， 如 Informatica 或 Pentaho。 数 据 采 集 系 统 (如 
Oracle Golden Gate) 的 调整 能 够 高 效 地 对 频繁 更 新 的 数据 表 进 行 复制 。 


一 些 Hadoop 用 户 会 采取 另外 一 种 方式 : 从 关系 型 数据 库 将 数据 导出 成 文件 ， 再 将 文件 
加 载 到 Hadoop 中 。 如 果 原 本 就 有 从 OLTP 系统 进行 每 日 数据 导出 的 处 理 ， 那 么 可 对 此 
复 用 ， 将 数据 加 载 到 Hadoop。 不 过 如 果 原 本 并 没有 这 样 的 处 理 ， 也 用 不 着 添加 。Sqoop 
本 身 就 支持 数据 导出 工具 (如 mysqldump 或 Teradata 快速 导出 工具 ) 完成 数据 的 导入 ， 
而 这 种 导入 经 过 了 优化 ， 更 容易 使 用 ， 而 且 久 经 测试 。 所 以 ， 如 果 是 从 零 开始 ， 我 们 推 
荐 使 用 Sqoop。 
选择 Sqoop 作为 导入 工具 后 ， 我 们 进一步 了 解数 据 导入 的 细节 问题 。 
有 以 下 几 种 类 型 的 数据 表 需 要 导入 。 
。 数据 几乎 不 变 的 表 
我 们 可 以 将 这 些 数据 表 一 次 性 地 导入 Hadoop， 导 入 完成 后 ， 可 以 按 需 执行 重复 导入 操 
作 。 在 我 们 的 例子 中 ， 所 有 的 维 表 均 常态 化 地 发 生 修改 ， 比 如 用 户 会 修改 自己 的 属性 ， 
而 新 电影 会 上 映 。 所 以 在 本 例 中 ， 没 有 哪 张 表 属于 这 个 类 型 。 
。 数据 频繁 更 新 的 小 表 
我 们 可 以 将 这 些 数据 表 每 天 导入 Hadoop 一 次 。 由 于 数据 量 较 少 ， 这 里 不 必 担 心 对 数据 
更 改 的 跟踪 ， 也 不 用 担心 导入 对 可 用 带宽 的 影响 。 在 这 个 例子 中 ， 电 影 信 息 表 数据 量 较 
小 ， 因 此 对 应 的 电影 数据 集 属于 这 一 类 。 
。 数据 频繁 更 新 且 无 法 每 天 全 量 提取 的 大 表 
对 于 这 种 表 ， 我 们 需要 确定 每 天 有 哪些 数据 发 生 更 改 ， 并 将 这 些 更 改 应 用 到 Hadoop 
上 。 这 些 表 可 以 只 支持 追加 而 不 支持 更 新 。 在 这 种 情况 下 ， 我 们 只 需 将 新 的 记录 添加 到 
Hadoop 的 表 中 即 可 。 这 些 表 也 可 能 是 支持 更 新 的 ， 此 时 我 们 就 需要 对 更 新 进行 合并 。 
而 user_rating_fact 与 user_history 均 属于 这 一 类 型 。 
上 述 前 两 类 表 通 常情 况 下 是 维 表 ， 不 过 并 不 是 所 有 的 维 表 都 属于 这 两 类 。 毕 竟 它 们 的 数据 





















































































































































数据 仓库 | 261 





图 灵 社 区 会 员 largelove(largelove@163.com) 专 享 尊重 版 权 


量 未 必 像 第 二 类 表 那 样 小 ， 更 新 也 未 必 像 第 一 类 表 那 样 少 。 这 些 表 的 数据 抽取 方式 基本 相 
同 ， 不 同 之 处 仅 在 于 调度 Sqoop 任务 的 频率 有 所 差异 。 


注意 ， 因 为 这 些 表 的 列 数 不 多 ， 数 据 量 也 不 大 ， 所 以 我 们 不 会 将 它们 导入 成 Parquet 格式 ， 
也 不 会 将 它们 导入 成 CSV。 芳 虑 到 访问 数据 时 要 避免 数据 解析 ， 我 们 选择 Avro 格式 。 当 
然 对 于 这 些小 表 ， 我 们 不 需要 考虑 分 区 的 问题 。 


现在 ， 让 我 们 看 一 个 使 用 Sqoop 将 电影 数据 集 从 OLTP 导入 Hadoop 的 例子 。 电 影 数 据 集 
数据 量 不 大 。 因 此 每 次 导入 时 我 们 只 需 将 数据 从 OLTP 数据 库 复 制 到 Hadoop 中 。 不 过 ， 
值得 注意 的 是 该 数据 集 在 OLTP 和 Hadoop 中 的 模式 描述 是 不 同 的 。 尤 其 是 在 Hadoop 上 ， 
类 别 表 (gen_re) 与 电影 类 别 对 照 表 (movie_genre) 在 反 向 规范 化 处 理 之 后 ， 成 为 了 电影 
数据 集 的 一 部 分 。 我 们 需要 执行 关联 操作 ， 将 movie、movie_genre 与 genre 表 合 并 成 一 个 
数据 集 。 对 此 ， 我 们 有 两 种 方式 可 以 采用 。 


。 我 们 可 以 在 Sqoop 任务 中 执行 该 关联 操作 ， 这 就 意味 着 通过 OLTP 数据 库 执行 关联 。 数 

据 在 Hadoop 落地 时 已 经 完成 了 反 向 规范 化 处 理 。 
。 我 们 可 以 在 Hadoop 上 执行 该 关联 操作 ， 将 movie、movie_genre 以 及 genre 表 从 OLTP 

中 原样 复制 到 Hadoop 中 即 可 。 接 下 来 执行 Hadoop 任务 ， 实 现 三 张 数据 表 到 单个 数据 

集 的 反 向 规范 化 处 理 。 
问题 是 选择 哪 一 种 方式 。 一 般 来 讲 ，Sqoop 支持 自 定义 形式 的 查询 式 导 入 。 举 例 来 说 ， 
Sqoop 的 导入 任务 可 以 包含 任意 的 SQL， 有 具体 到 这 个 例子 就 是 join 语句 。 然 而 ， 这 种 导 
入 仅 限 简单 查询 语句 ， 不 支持 自 定义 的 投影 ，where 子 句 中 不 能 包含 OR 条 件 。 在 这 种 情况 
下 ， 我 们 还 需要 指定 额外 的 参数 〈 如 --spLit-by) 来 保证 查询 的 并 行 化 。 不 过 这 样 做 的 确 
避免 了 编写 和 维护 后 续 Hadoop 关联 任务 的 麻烦 ， 虽然 这 个 关联 任务 极为 简单 。 从 另外 一 
个 角度 来 说 ， 有 一 些 OLTP 系统 可 能 在 资源 上 较为 紧缺 ， 使 用 Sqoop 来 执行 关联 操作 会 给 
OLTP 系统 带 来 风险 。 我 们 的 建议 如 下 : 如 果 在 源 数据 库 上 执行 自 定 义 形式 的 SQL 查询 比 
较 简 单 ， 且 OLTP 数据 库 能 够 安全 地 执行 这 样 的 语句 ， 那 么 就 采用 自 定义 查询 的 Sqoop 导 
入 ; 如 果 SQL 查询 复杂 或 者 OLTP 系统 资源 有 限 ， 那 么 就 选择 后 续 运行 Hadoop 任务 。 


本 例 中 的 关联 较为 简单 ， 因 此 在 Sqoop 任务 中 直接 指定 。 


#!/bin/bash 
# 所 有 的 节点 都 应 拥有 访问 源 数据 库 的 权限 


# 如 有 必要 则 执行 清理 操作 。 即 使 rm 命令 执行 失败 ， 
# 由 于 后 面 有 || : ,脚本 也 能 继续 。 


sudo -u hdfs hadoop fs -rm -r /data/movielens/movie || : 




















































































































sqoop import --connect jdbc:mysql://mysql_server:3306/movielens 


--Username myuser --password mypass --query \ 
'SELECT movie.*, group_concat(genre.name) 
FROM movie 


JOIN movie_ genre ON (movie.id = movie genre.movie id) 

JOIN genre ON (movie genre.genre id = genre.id) 

WHERE S${CONDITIONS} 

GROUP BY movie.id' \ 

--split-by movie.id --as-avrodatafile --target-dir /data/movielens/movie 
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以 上 命令 在 OLTP 数据 库 上 执行 一 个 关联 操作 ， 将 反 向 规范 化 后 的 电影 数据 集 导 入 到 了 
Hadoop 上 。 导 入 后 的 数据 集 以 Avro 的 格式 存放 在 HDFS 的 /data/movielens/movie 目录 下 。 


导入 完成 后 ， 我 们 需要 为 其 创建 一 个 匹配 的 Hive 表 ， 后 面 我 们 会 使 用 该 表 进 行 转换 操作 。 
这 就 需要 从 刚 采 集 的 文件 中 拿 到 Avro 的 模式 描述 ， 并 使 用 它 建 立 Hive 表 。 


#!/bin/bash 

# 如 果 指 定 模式 文件 存在 ,删除 之 

# 行 尾 的 || :确保 指 定 文件 不 存在 时 ,脚本 仍 正常 执行 

sudo -u hdfs hadoop fs -rm /metadata/movielens/movie/movie.avsc || : 
hadoop jar S${AVRO_HOME}/avro-tools.jar getschema \ 
/data/movielens/movie/part-m-00000.avro | \ 

hadoop fs -put - /metadata/movielens/movie/movie.avsc 























hive -e "CREATE EXTERNAL TABLE IF NOT EXISTS movie 

ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe' 

STORED AS 

INPUTFORMAT "org.apache.hadoop.hive.qL.io.avro.AvroContainerInputFormat 
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat'" 
LOCATION '/data/movielens/movie' 

TBLPROPERTIES ('avro.schema.url'='/metadata/movielens/movie/movie.avsc')" 


注意 ， 我 们 通常 会 将 表 创 建 为 外 表 (EXTERNAL) 。 这 样 做 在 性 能 上 没有 损失 ， 而 且 我 们 在 删 
除 和 修改 表 的 时 候 ， 不 会 丢失 任何 数据 。 另 外 ， 注 意 在 前 面 的 CREATE TABLE 语句 中 ， 我 们 
在 创建 Hive 表 的 时 候 ， 没 有 指定 模式 。 取 而 代 之 的 是 ， 我 们 使 用 avro.schema.url 属性 指定 
了 Avro 模式 ， 这 样 Hive 的 模式 就 可 以 根据 Avro 模式 衍生 出 来 。 通 过 这 种 方式 ， 我 们 不 
必 维 护 数 据 的 两 种 不 同 的 模式 ， 一 个 在 Avro 中 ， 一 个 在 Hive 里 。 它 们 可 以 共用 Avro 中 
定义 的 同一 个 模式 。 

之 前 提 到 的 第 三 类 数据 表 有 以 下 约束 。 

。 首先 ， 我 们 需要 提取 整个 表 的 数据 ， 然 后 在 Hive 中 创建 一 张 带 分 区 的 表 。 

。 然后 ， 我 们 每 天 都 需要 提取 出 最 新 的 修改 记录 ， 将 这 些 修改 追加 到 Hive 表 中 ， 或 者 合 
并 到 对 应 的 表 上 。 

Sqoop 支持 增 量 导入 。 这 就 意味 着 ， 只 要 有 一 列 能 够 标识 这 一 行 是 否 包含 有 新 的 数据 (无 
论 是 时 间 惟 还 是 自 增 ID)，Sqoop 就 可 以 将 之 前 一 次 执行 对 应 的 值 存储 下 来 ， 在 下 一 次 执 
行 时 使 用 这 个 值 ， 以 保证 只 获取 最 新 的 或 者 是 修改 后 的 行 。 

为 了 使 用 这 个 特性 ， 我 们 需要 创建 Sqoop 的 元 数据 存储 (metastore)， 它 用 来 存储 Sqoop 
任务 的 状态 。 如 何 启 动 Sqoop 的 元 数据 存储 服务 ， 这 取决 于 Sqoop 的 安装 方式 。 如 果 使 用 
的 是 安装 包 ， 那 么 可 以 使 用 如 下 service 命令 。 


sudo service sqoop-metastore start 


如 果 你 用 压缩 包 安 装 了 Sqoop， 则 可 以 使 用 如 下 命令 。 


mkdir -p /var/Log/sqoop 
nohup "/usr/bin/sqoop" metastore > /var/log/sqoop/metastore.log 2>&1 & 


如 果 你 使 用 了 管理 工具 ， 则 应 该 可 以 通过 该 工具 启动 Sqoop 的 元 数据 服务 。 
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启动 元 数据 存储 服务 后 ， 你 可 以 使 用 如 下 方式 运行 增 量 导入 任务 。 


#!/bin/bash 
SQOOP_METASTORE_HOST=localhost 
# 删除 已 存在 的 任务 .如 果 不 存 在 ， 
# 行 尾 的 || :确保 返回 成 功 ,脚本 继续 执行 

sqoop job --delete user_rating import --meta-connect \ 
jdbc:hsqldb:hsql://${SQOOP_METASTORE_HOST}:16000/sqoop || : 























# TODO: Made minor changes. Test this 
# 如 果 Hive 不 存在 于 /usr/Lib/hive 目 录 下 , 则 需 显 式 指 定 HIVE_HOME 的 位 置 
# 如 果 使 用 Apache Sqoop 1.4.6 及 以 上 版 本 , 则 无 须 这 样 做 
sqoop job --create user_rating import --meta-Connect \ 
jdbc:hsqldb:hsql://${SQOOP_METASTORE_HOST}:16000/sqoop \ 

- import --connect jdbc:mysql://mysql_server:3306/movielens \ 
--Username myuser \ 

--password-file hdfs://${NAMENODE_HOST}/metadata/movielens/.passwordfile \ 
--table user_rating -m 8 --incremental lastmodified \ 
--check-column timestamp --append --as-parquetfile --hive-import \ 
--warehouse-dir /data/movielens --hive-table user_rating fact 


以 上 脚本 创建 了 一 个 名 为 user_rating_import 的 任务 ， 并 将 该 任务 存储 到 Sqoop 元 数据 存储 
服务 中 。 该 任务 将 根据 命令 行 中 的 用 户 名 以 及 HDFS 上 的 密码 文件 连接 到 MySQL OLTP 
数据 库 ， 并 将 数据 库 中 的 user_rating 表 导 入 Hadoop。 该 任务 基于 上 次 导入 的 时 间 惟 字段 
J 行 增 量 导入 。 新 导入 的 数据 会 追加 到 Hive 表 中 ， 而 且 以 Parquet 格式 存储 。 后 

续 的 每 一 次 执行 均 只 抽取 比 上 一 次 执行 时 间 蕉 更 大 的 行 ， 也 就 是 自 上 一 次 执行 新 增 或 更 新 
的 评 / 分 数据 。 


执行 以 下 命令 ， 运 行 该 任务 。 
sqoop job -exec user_rating import --meta-connect \ 
jdbc:hsqldb:hsql://${SQOOP_METASTORE_HOST}:16000/sqoop 
如 果 原 来 的 表 只 支持 插入 ， 那 么 导入 就 完成 了 。 每 次 运行 该 任务 ，Sqoop 任务 都 会 将 新 的 
数据 追加 到 名 为 user_rating_fact 的 Hive 表 中 。 然 而 ， 后 弓 去 还 有 一 些 额外 需要 执行 的 任务 。 


。 根据 评分 的 最 近 修 改 时 间 ， 对 事实 表 进 行 分 

。 如 果 在 应 用 场景 中 ， 表 中 的 数据 可 以 修改 而 非 只 能 新 缮 (比如 用 户 信息 表 )， 那 么 我 们 
需要 将 新 的 更 新 记录 合并 到 已 有 的 表 中 。 本 例 需要 通过 后 续 的 Hadoop 任务 将 追加 到 
user_rating_fact 的 数据 再 合并 到 user_rating 数据 集中 。 关 于 这 些 任务 的 详细 信息 ， 请 参 
阅 10.6.3 节 。 

。 我 们 可 能 还 需要 预先 执行 一 些 聚 合 操作 ， 以 保证 后 续 的 报表 能 够 快速 生成 。 


10.6.3 ”数据 处 理 及 访问 


讨论 了 如 何在 Hadoop 上 对 数据 集 进行 建 模 和 采集 ， 接 下 来 我 们 来 看 看 如 何 处 理 落 地 存储 
的 数据 。 


1. 分 区 
需要 数据 分 区 的 情况 有 以 下 三 种 。 
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。 需要 对 已 存在 的 表 进 行 分 区 。 
。 需要 将 数据 加 载 到 表 的 多 个 分 区 中 。 
。 需要 将 导入 某 个 目录 的 数据 作为 新 的 分 区 添加 到 表 中 。 


要 对 已 存在 的 表 进行 分 区 ， 我 们 首先 要 创建 一 个 新 的 带 分 区 的 表 ， 然 后 从 旧 的 表 中 读 取 数 
据 ， 并 将 数据 加 载 到 新 表 正 确 的 分 区 中 。 上 面 提 到 的 最 后 一 步 与 加 载 数 据 到 已 存在 的 分 区 
表 做 法 相同 。 


我 们 首先 创建 一 张 带 分 区 的 user_rating 表 。 此 表 按 照 年 、 月 、 日 进行 分 区 ， 在 其 他 方面 与 
原来 的 user_rating 均 保 持 一 致 。 


#!/bin/bash 
sudo -u hdfs hadoop fs -mkdir -p /data/movielens/user_rating_ part 
sudo -u hdfs hadoop fs -chown -R ${USER}: /data/movieLens/user_rating_part 
hive -e "CREATE EXTERNAL TABLE IF NOT EXISTS user_rating_part( 
user_id INT， 
movie id INT， 
rating INT， 
last_modified TIMESTAMP) 
PARTITIONED BY (year INT, month INT, day INT) 
ROW FORMAT SERDE 'parquet.hive.serde.ParquetHiveSerDe' 
STORED AS 
INPUTFORMAT 'parquet.hive.DeprecatedParquetInputFormat' 
OUTPUTFORMAT "parquet.hive.DeprecatedParquetOutputFormat 
LOCATION '/data/movielens/user_rating_part'" 


接 下 来 ， 我 们 将 评分 数据 加 载 到 新 表 的 对 应 分 区 中 。 


#!/bin/bash 
hive -e " 
SET hive.exec.dynamic.partition.mode=nonstrict; 
SET hive.exec.dynamic.partition=true; 
SET hive.exec.max.dynamic.partitions.pernode=1000; 
INSERT INTO TABLE user_rating_ part PARTITION (year, month, day) 
SELECT 

* 

YEAR( last_modified), 

MONTH( last_modified), 

DAY(Last_modified) 
FROM 

user_rating" 


如 果 数 据 已 经 导入 到 了 新 的 目录 中 ， 那 么 我 们 只 需要 将 这 些 目 录 添 加 成 新 的 分 区 ， 通 过 执 
行 以 下 操作 完成 。 

#!/bin/bash 

hive -e "ATLER TABLE user_rating_part 


ADD PARTITION (year=2014, month=12, day=12) 
LOCATION '/data/newdata'" 


2. 合并 /更 新 

在 一 些 情况 下 ， 仪 仅 将 新 的 事实 记录 添加 到 已 有 的 表 中 是 远 远 不 够 的 。 有 了 时候 我 们 实际 上 
要 对 已 有 的 信息 进行 更 改 ， 比 如 ， 我 们 有 缓慢 变化 的 维 表 。 假 定 当 用 户 修改 信息 (如 职 
位 ) 时 ， 我 们 需要 更 新 user 数据 集 ， 还 要 更 新 user_history 数据 集 的 内 容 。 在 这 一 部 分 ， 
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我 们 来 关注 如 何 将 更 新 合并 到 user 数据 集 上 。 


你 应 该 还 记得 ，HDFS 是 一 个 一 次 写 和 人 (write-once) 的 文件 系统 。 将 数据 存 和 人 HDFS 后 ， 
我 们 不 能 通过 修改 文件 的 一 小 部 分 来 更 新 一 条 记录 。 我 们 需要 将 整个 已 经 存在 的 记录 从 文 
件 中 读 取 出 来 ， 然 后 将 其 复制 到 一 个 新 的 文件 中 ， 并 将 需要 进行 的 更 改 应 用 到 这 个 新 的 文 
件 上 。 最 后 ， 我 们 更 新 Hive 的 元 数据 信息 ， 将 表 指 向 更 新 后 的 新 文件 。 


如 果 要 更 新 的 表 非 常 大 ， 读 取 非 常 耗 时 ， 执 行 更 改 也 会 很 低 效 。 这 里 有 三 种 方式 可 以 解决 
问题 。 


。 也 许 这 张大 表 可 以 进行 分 区 ， 修 改 操 作 只 需 涉及 一 小 部 分 分 区 。 举 例 来 说 ， 如 果 销 售 订 
单 只 能 在 90 天 之 内 取消 ， 那 么 只 有 包含 最 新 90 天 的 分 区 才 需 要 复制 和 更 改 。 

。 要 知道 Hadoop 工作 起 来 并 不 总 是 快速 的 ， 但 它 的 扩展 性 很 好 。 如 果 你 需要 让 复制 和 更 
改 大 表 的 操作 加 速 , 最 简单 的 方案 大 概 是 添加 集群 的 节点 , 保证 所 需 的 WO 和 处 理 资源 。 

。 如 果 “ 缓 慢 更 改 ” 的 维 表 的 确 很 大 ， 甚 至 更 改 也 比较 频繁 ， 那 么 或 许 HDFS 不 是 最 适 
合 的 存储 方式 ， 可 以 考虑 将 频繁 更 新 的 表 存 储 到 HBase 中 。Hive 和 Impala 都 支持 对 
HBase 和 HDFS 上 的 数据 表 进 行 关 联 。 注 意 ， 在 优化 更 新 的 同时 ， 这 样 做 的 代价 是 减 慢 
了 某 些 查询 的 速度 。 从 大 批量 扫描 操作 的 角度 来 讲 ， 这 种 在 数据 仓库 中 很 常见 的 使 用 方 
式 在 HBase 中 比 在 HDFS 中 更 为 缓慢 。 


假定 已 经 确定 使 用 HDFS 作为 数据 存储 ， 而 且 对 于 这 张 用 户 信息 表 ， 我 们 需要 将 Sqoop 导 
出 的 新 数据 更 新 到 整个 表 中 。 在 Sqoop 的 增 量 导入 任务 执行 完毕 之 后 ， 我 们 拥有 了 包含 数 
据 的 以 下 两 个 目录 。 
。 /data/movielens/user 
已 存在 的 表 。 
。 /etl/movielens/user_Upserts 
新 的 记录 。 有 一 些 记录 是 新 增 的 ， 有 一 些 则 需要 替换 表 中 已 存在 的 记录 。upsert 一 词 融 
合 了 更 新 (update) 和 插入 (insert)。 在 当前 上 下 文中 ， 该 数据 集 包含 的 记录 是 我 们 需 
要 进行 更 新 和 插入 的 。 


user_upserts 数据 的 采集 查询 语句 如 下 所 示 。 


#!/bin/bash 

sqoop job --create user_upserts import --meta-Connect \ 
jdbc:hsqldb:hsql://${SQOOP_METASTORE_HOST}:16000/sqoop \ 
--import --connect jdbc:mysql://mysql_server:3306/movielens \ 
--Username myuser --password mypass \ 

-m 8 --incremental append --check-column last modified --split-by last modified \ 
--as-avrodatafile --query \ 

“SELEGT 

user .id, 

User .age, 

user .gender, 

occupation.occupation, 

zipcode, 

last_modified 

FROM User 
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JOIN occupation 

ON (user .occupation id = occupation.id) 
WHERE S{CONDITIONS}' \ 

--target-dir /etl/movielens/user_upserts 


然后 ， 我 们 给 这 些 需 要 upsert 的 记录 创建 一 张 Hive 表 ， 以 提供 结构 化 视图 。 


#!/bin/bash 
hive -e \ 
"CREATE EXTERNAL TABLE IF NOT EXISTS user_upserts( 
id INT， 
age INT， 
occupation STRING, 
zipcode STRING, 
last_ modified BIGINT) 
STORED AS AVRO 
LOCATION '/etl/movielens/user_uypserts'" 


此 时 ， 我 们 需要 做 的 就 是 编写 一 条 查询 语句 ， 将 user_upserts 与 已 存在 的 数据 集 进行 合并 ， 
将 合并 的 结果 写 入 用 户 信息 表 。 然 而 ， 在 Hive 中 ，INSERT OVERNRITE 操作 是 非 原子 性 的 。 
对 于 一 个 非 原 子 性 的 插入 ， 读 取 该 表 的 用 户 可 能 会 看 到 不 一 致 的 视图 。 因 此 ， 我 们 创建 一 
张 用 户 信息 的 临时 表 〈 称 之 为 user_ tmp)， 将 合并 后 的 结果 插入 这 张 表 ， 然 后 再 原子 性 地 
修改 用 户 信息 表 ， 使 之 接 入 新 的 数据 。 


如 下 是 user 和 user_tmp 的 CREATE TABLE 语句 。 


#!/bin/bash 
hive -e \ 
"CREATE EXTERNAL TABLE IF NOT EXISTS user( 

id INT, 

age INT， 

occupation STRING, 

zipcode STRING, 

last_modified TIMESTAMP) 
ROW FORMAT SERDE 'parquet.hive.serde.ParquetHiveSerDe' 
STORED AS 
INPUTFORMAT “parquet.hive.DeprecatedParquetInputFormat 
OUTPUTFORMAT ‘'parquet.hive.DeprecatedpParquetOutputFormat'" 
LOCATION '/data/movielens/user'" 






























































DT=$ (date "+%Y-%m-%d") 
hive -e \ 
"CREATE EXTERNAL TABLE IF NOT EXISTS user_tmp( 

id INT, 

age INT, 

occupation STRING, 

zipcode STRING, 

last_ modified TIMESTAMP) 
ROW FORMAT SERDE 'parquet.hive.serde.ParquetHiveSerDe' 
STORED AS 
INPUTFORMAT “parquet.hive.DeprecatedParquetInputFormat 
OUTPUTFORMAT "parquet.hive.DeprecatedParquetOutputFormat 
LOCATION '/data/movielens/user_${DT}'" 
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注意 ， 除 了 LOCATION 子 句 指定 的 位 置信 息 不 同 ，user 和 user_tmp 的 表 定 义 是 完全 一 致 的 。 


接 下 来 的 目标 是 读 取 已 存在 的 表 ， 读 取 新 增 的 记录 ， 并 创建 二 者 合并 后 的 表 。 新 的 表 将 包 
含 全 部 已 存在 的 记录 (与 新 记录 发 生 冲 突 的 记录 除外 ) 以 及 所 有 新 增 的 记录 。 


在 这 个 例子 中 ， 表 都 是 不 带 分 区 的 。 但 是 如 果 原 来 的 用 户 信息 表 是 带 分 区 的 ， 我 们 也 需要 
对 这 张 表 按 照相 同 的 方式 进行 分 区 。 注 意 ， 我 们 为 这 张 表 指定 了 一 个 位 置信 息 ， 在 这 个 位 
置 包含 了 最 新 的 数据 。 这 样 做 能 够 存储 用 户 信 息 表 的 历史 数据 ， 并 且 可 以 让 更 改 前 的 数据 
很 方便 地 复原 。 
接 下 来 就 是 实际 的 合并 操作 。 
#!/bin/bash 
hive -e " 
INSERT OVERWRITE TABLE user_tmp 
SELECT 
User.* 
FROM 
user 
LEFT OUTER JOIN 
user_upserts 
ON (user.id = user_upserts.id) 
WHERE 
user_upserts.id IS NULL 
UNION ALL 
SELECT 
id, age, occupation, zipcode, TIMESTAMP(last modified) 
FROM 
user_upserts" 


以 上 查询 语句 乍 看 有 些 复杂 。 它 只 是 从 用 户 信息 表 中 拿 到 了 所 有 不 会 被 user_upserts 记录 
替代 的 记录 (两 表 关 联 ， 我 们 只 选 user_upserts.id 为 空 的 记录 ， 这 意味 着 对 应 的 ID 没有 新 
的 记录 )， 然 后 再 加 上 所 有 新 的 记录 (UNION ALL SELECT * FROM USER_UPSERTS ) 。 我 们 接 下 
来 将 所 有 的 结果 插入 user_tmp 数据 集中 。 


#!/bin/bash 
hive -e "ALTER TABLE user SET LOCATION '/adta/movielens/user_${DT}"'" 


这 样 ， 用 户 信 息 表 中 就 是 当前 位 置 的 合并 后 的 数据 了 。 现 在 ， 我 们 可 以 删 掉 user_upserts 
表 ， 或 许 几 天 之 后 先前 的 user_${DT} 目录 也 可 以 删 掉 了 。 


10.6.4 ”数据 聚合 


很 多 情况 下 ， 在 Hadoop 上 执行 ETL 操作 的 重要 性 在 于 ，Hadoop 支持 那些 在 关系 型 数据 
库 中 执行 起 来 很 耗资 源 的 聚合 操作 。 就 复杂 的 聚合 操作 来 讲 ， 人 们 会 认为 这 是 一 种 高 级 的 
分 析 。 在 非常 大 的 数据 实体 上 进行 极为 简单 的 聚合 操作 〈 求 和 、 计 数 或 求 平均 ) 时 ， 很 多 
人 不 知道 可 以 对 这 类 操作 进行 效果 显著 的 优化 。 这 类 聚合 对 于 Hadoop 来 说 ， 是 天 然 高 度 
并 行 的 ， 是 非常 适合 在 Hadoop 上 进行 的 操作 。Hadoop 的 扩展 性 与 相对 低廉 的 成 本 为 聚合 
SLA 的 操作 提供 了 大 量 的 资源 。 这 一 类 的 聚合 包括 电信 运营 商 统计 上 线 设 备 的 错误 计数 、 
农业 公司 统计 辖 内 每 一 寸土 地 的 湿度 平均 值 ， 等 等 。 
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对 于 这 里 讨论 的 情形 ， 聚 合 的 一 个 例子 就 是 统计 指定 用 户 对 特定 电影 的 评分 次 数 。 如 
果 涉 及 的 事实 表 是 一 张大 表 ， 这 就 是 一 个 非常 庞大 的 查询 。 不 过 ， 这 样 的 查询 在 大 规 
模 的 Hadoop 集群 上 执行 速度 是 相当 快 的， 这 是 因为 用 户 - 电影 计数 是 能 够 并 行 独立 计 
算 的 。 

以 上 聚合 在 Hive 或 Impala 中 可 以 使 用 CREATE TABLE AS SELECT (或 CTAS) 模式 完成 。 


#!/bin/bash 
hive -e " 
CREATE TABLE user_movie count AS 
SELECT 
movie_id, 
user_id, 
COUNT(*) AS count 
FROM 
user_rating_ fact 
GROUP BY 
movie_id, 
user_id" 














就 我 们 的 例子 而 言 ， 一 个 更 为 有 用 的 聚合 是 计算 每 部 电影 的 平均 得 分 。 

#!/bin/bash 
hive -e " 
CREATE TABLE avg_movie_rating AS 
SELECT 

movie_id, 

ROUND(AVG(rating), 1) AS rating 
FROM 

user_rating_part 
GROUP BY 

movie id" 


注意 ， 上 面 只 是 以 Hive 或 Inpala 举例 说 明 ， 你 可 以 采用 任意 Hadoop 处 理工 具 。 某 些 聚 合 
操作 涉及 特定 算法 ， 可 能 在 SQL 中 无 法 实现 〈 比 如 地 理 空间 国 数 ，geospatial function) 或 
者 用 SQL 表述 过 于 复杂 (如 第 8 章 提 到 的 会 话 生 成 的 例子 )。 要 知道 ，ETL 系统 那些 数据 
变换 只 能 通过 SQL 来 完成 ， 而 Hadoop 提供 了 大 量 的 工具 ， 可 以 用 来 解决 任何 问题 。 如 果 
你 选择 使 用 其 他 的 工具 执行 聚合 操作 ， 只 需要 在 结果 集 上 创建 一 张 外 表 ， 用 户 就 可 以 通过 
Impala 对 数据 进行 访问 了 。 

或 者 ， 正 如 10.6.5 节 要 讨论 的 那样 ， 无 论 通过 什么 方式 产生 聚合 后 的 数据 集 ， 我 们 只 需 
使 用 Sqoop 将 结果 集 导 出 到 关系 数据 仓库 中 。 到 了 这 里 ， 所 有 的 BI 工 具 都 能 施展 身手 。 


10.6.5 “数据 导出 

数据 处 理 完毕 之 后 ， 我 们 需要 决定 怎样 使 用 这 些 结果 。 一 种 做 法 是 简单 地 将 数据 保留 在 
Hadoop 中 ， 使 用 Impala 和 集成 的 BI 工具 进行 查询 。Hive 也 可 以 完成 这 种 查询 。 然 而 ， 如 
果 有 低 延 迟 访问 的 需求 ，Impala 会 更 为 合适 。 

不 过 ， 很 多 情况 下 ， 很 多 业务 在 应 用 研发 上 投入 了 大 笔 资 金 。 无 论 是 自行 研发 的 还 是 第 三 
方 的 应 用 ， 它 们 均 采 用 了 已 有 的 关系 型 数据 仓库 。 将 这 些 应 用 全 部 转 入 Hadoop 是 一 大 笔 
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投资 ， 未 必 划 算 。 


在 这 种 情况 下 ， 我 们 需要 以 一 种 高 效 的 方式 将 处 理 后 的 数据 从 Hadoop 中 导出 ， 然 后 导 
入 关系 型 数据 仓库 。 这 里 有 几 种 办 法 。 你 可 以 使 用 能 够 与 Hadoop 集成 的 ETL 工具 (如 
Informatica 和 Pentaho) 。 一 些 数 据 库 厂商 〈 最 为 值得 一 提 的 就 是 Oracle) ， 拥 有 经 过 优化 的 
连接 器 ， 可 以 从 Hadoop 向 自身 数据 库 导入 数据 。 最 流行 的 方式 仍然 是 采用 Sqoop。 


使 用 Sqoop 将 数据 传输 到 关系 型 数据 库 是 个 很 直接 的 过 程 。 这 时 执行 的 不 是 sqoop import， 
而 是 sqoop export 命令 。 接 下 来 批量 插入 行 并 分 批 次 将 数据 提交 给 数据 库 。 这 就 意味 着 ， 
数据 导出 的 过 程 会 有 多 次 数据 库 提 交 。 如 果 导 出 中 途 出 错 ， 已 经 导入 数据 库 的 那 部 分 数据 
就 需要 清理 ， 而 这 处 理 起 来 令 人 头疼 。 因 此 ， 我 们 推荐 对 Sqoop 进行 设置 。 在 导入 数据 库 
时 先导 入 到 暂 存 表 中 ， 当 所 有 的 数据 全 部 导出 完成 后 ， 再 将 数据 移 人 实际 要 导入 的 表 。 


值得 注意 的 另外 一 点 是 ， 导 出 数据 可 能 会 涉及 记录 行 的 插入 和 更 新 。Sqoop 支持 三 种 模式 : 
仅 插 入 、 仅 更 新 和 混合 。 你 要 保证 为 自己 的 应 用 场景 选择 正确 的 导出 模式 。 更 新 需要 一 个 
更 新 的 键 ， 这 个 键 应 该 是 表 的 唯一 键 。Sqoop 会 根据 该 键 识别 记录 是 否 已 存在 ， 进 而 执行 
更 新 。 因 此 在 Hadoop 上 和 在 关系 型 数据 仓库 中 ， 这 个 键 必须 是 相同 的 。 


以 下 是 使 用 Sqoop 导出 到 一 个 暂 存 表 的 例子 ， 插 入 和 更 新 均 包 括 在 内 。 


#!/bin/bash 

# 执行 以 下 命令 前 ,DWH 中 的 目的 表 应 当 是 存在 的 ， 

# 并 且 对 于 运行 Sqoop 任 务 的 用 户 来 讲 , 用 于 写 操作 权限 

# 类 似 的 建 表 语 句 如 下 : 

# CREATE TABLE avg_movie rating(movie id INT, rating DOUBLE) ; 

















































































































sqoop export --connect \ 
jdbc:mysql:/mysql_server:3306/movie_dwh --username myuser --password mypass \ 
--table avg_movie rating --export-dir /user/hive/warehouse/avg_movie rating \ 
-m 16 --update-key movie id --update-mode allowinsert \ 
--input-fields-terminated-by '\001' --lines-terminated-by '\n' 
最 后 提 一 条 建议 : 如 果 你 的 数据 库 有 Sqoop 优化 后 的 连接 器 ， 那 么 就 使 用 它 。 这 些 连接 器 
支持 批量 加 载 ， 减 少 了 数据 库 的 加 锁 ， 显 著 地 提高 了 导出 性 能 。 


10.6.6 ”流程 调度 

整个 ETL 处 理 过 程 开发 完毕 之 后 ， 就 到 了 让 工作 流 自动 化 的 时 候 了 。 如 之 前 章节 讨论 的 那 
样 ， 流 程 调度 可 以 通过 Oozie (如 果 要 使 用 开源 解决 方案 的 话 ) 或 其 他 已 有 的 流程 调度 工 
具 来 完成 ，Autosys、Activebatch 以 及 UC4 都 是 常用 的 工具 。 

如 果 决 定 使 用 Oozie， 那 么 工作 流 应 该 包含 以 下 四 点 。 


。 一 个 用 于 获取 数据 的 Sqoop 操作 。 

。 一 个 用 于 执行 数据 集 关 联 、 分 区 、 合 并 的 Hive 操作 。 
。 多 个 用 于 完成 聚合 的 Hive 或 MapReduce 操作 。 

。 一 个 用 于 将 结果 导出 至 数据 仓库 的 Sqoop 操作 。 


在 点 击 流 分 析 的 案例 中 ， 我 们 看 到 了 Hive 和 MapReduce 操作 的 例子 。 在 这 里 ， 让 我 们 简 
单 看 一 下 Sqoop 操作 。 
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<action name="import_facts"> 
<Sqoop xmlns="uyri:oozie:sqoop-action:0.4"> 
<job-tracker>${jobTracker}</job-tracker> 
<name-node>${nameNode}</name-node> 
<command>job -exec user_rating_ import \ 
--meta-connect jdbc:hsqldb:hsql://edgenode:16000/sqoop</command> 
<archive>/tmp/mysql-connector-java.jar#mysql-connector-java.jar</archive> 
<file>/tmp/hive-site.xml#hive-site.xml</file> 
</sqoop> 
<ok to="end"/> 
<error to="kill"/> 
</action> 


注意 ， 要 执行 存储 在 Sqoop 元 数据 服务 中 的 一 个 任务 ， 我 们 只 需 告 诉 Sqoop 要 执行 哪 一 个 
任务 (这 里 需要 确保 集群 所 有 的 节点 均 可 以 连接 Sqoop 的 元 数据 )。 我 们 通过 <command> 
参数 来 完成 该 项 指定 。 我 们 还 需要 告知 Sqoop 和 Oozie，JDBC 驱动 的 位 置 以 及 Hive 配置 
文件 的 位 置 ， 这 两 点 分 别 通 过 <archive> 和 <file> 参数 进行 指定 。 

注意 ， 我 们 的 工作 流 将 会 包含 多 个 Sqoop 动作 〈 每 个 表 一 个 )、 多 个 分 区 或 合并 的 步骤 、 
多 个 聚合 操作 ， 等 等 。 我 们 可 以 通过 第 6 章 描述 的 fork-and-join 模式 实现 。 

图 10-8 展示 的 就 是 工作 流程 整体 的 样子 。 



























多 妆 
User_rating movie User 














10-8:， ETL 处 理 的 Oozie 工作 流 
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10.7 “小 结 


本 章 研 究 了 在 已 有 企业 级 数据 仓库 上 部 署 Hadoop 的 难点 。 我 们 了 解 到 ， 使 用 Hadoop 作 
为 EDW 的 补充 满足 了 ETL 任务 的 SLA, 减少 了 对 EDW 资源 的 过 多 占用 ， 把 Hadoop 
打造 成 了 一 个 高 精度 数据 的 在 线 归 档 服 务 和 一 个 支持 探索 性 分 析 的 绝 佳 数据 平台 。 我 们 
以 MovieLens 为 例 介 绍 了 OLTP 系统 中 的 数据 集 ， 讲 解 了 数据 如 何 导 入 Hadoop， 以 及 在 
Hadoop 中 可 以 对 数据 进行 怎样 的 转换 。 接 下 来 ， 我 们 基于 Hadoop 的 MovieLens 数据 集 ， 
生成 了 一 些 聚 合 表 ， 并 将 其 导出 至 数据 仓库 中 。 我 们 还 展示 了 如 何 使 用 Oozie 这 样 的 调度 
工具 协调 所 有 的 导入 、 处 理 以 及 导出 。 你 也 可 以 将 半 结 构 化 或 非 结 构 化 数据 与 EDW 中 的 
传统 结构 化 数据 关联 。 

希望 通过 本 章 的 学 习 ， 你 可 以 使 用 Hadoop 补充 已 有 的 EDW， 打 破 原 有 架构 的 限制 ， 从 数 
据 中 汲取 更 多 价值 。 
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Impala 中 的 关联 

















第 3 章 就 Inmpala 的 基本 情况 和 基本 原理 进行 了 介绍 。 在 本 附录 中 ， 我 们 来 了 解 一 下 Impala 
如 何 计划 并 执行 分 布 式 关联 联 查 询 (join query)。 在 本 书写 作 之 时 ，Impala 支持 两 种 关联 
策略 : 广播 式 关联 (broadcast join) 与 分 区 后 散 列 关联 (partitioned hash join ) 。 


A.1 广播 式 关联 

Impala 最 先 支持 的 关联 就 是 广播 式 关 联 ， 这 也 是 默认 的 关联 模式 。 在 进行 广播 式 关联 时 ， 
Impala 会 读 取 较 小 的 数据 集 ,并 将 其 分 发 给 所 有 该 查询 计划 涉及 的 Impala 后 台 程 序 '。 参 与 
执行 该 计划 的 impalad 接收 到 数据 集 之 后 , 就 会 将 其 以 哈 希 表 (hash table),“ 的 形式 放置 于 
内 存 中 。 接 下 来 ， 每 个 impalad 会 就 近 读 取 较 大 数据 集 的 数据 ， 并 参照 内 存 中 的 哈 希 表 ， 
就 每 一 行 数据 进行 比 对 ， 查 看 是 否 匹 配 ( 即 进行 散 列 关联 )。 由 于 不 必 将 较 大 数据 集 的 全 
部 内 容 放 到 内 存 中 ， 因 此 Impala 使 用 1 GB 的 缓冲 区 来 分 段 读 较 大 的 表 ， 然 后 分 别 依次 执 
行 关 联 操作 。 

图 A-1 和 图 A-2 是 工作 原理 图 解 。 图 A-1 展示 了 每 个 impalad 如 何 缓存 较 小 数据 集 。 该 关 
联 策略 较为 简单 ， 但 是 需要 关联 的 二 者 之 中 至 少 有 一 个 是 较 小 的 表 。 


关于 广播 式 关联 ， 有 以 下 几 点 需要 注意 。 


。 在 每 个 节点 上 ， 较 小 的 数据 集 都 会 占用 相应 的 内 存 。 假 设 你 有 三 个 节点 ， 每 个 节点 上 的 
Impala 配置 有 50 GB 内 存 ， 对 于 广播 式 关 联 ， 较 小 数据 集 的 上 限 略 高 于 40 GB ， 而 集群 
的 总 内 存 有 150 GB。 




























































































注 1: 由 于 实际 运行 时 该 进程 名 为 impalad， 以 下 均 称 之 为 impalad。 一 一 译 者 注 
注 2: hash 一 词 可 以 是 哈 希 或 散 列 ， 本 文 依 语 境 蔡 换 使 用 。 一 一 译 者 注 
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。 内 存 缓冲 区 的 数据 不 是 整个 小 表 的 全 部 数据 ， 而 是 列 的 哈 希 表 一 一 要 关联 的 列 以 及 查询 
时 涉及 的 列 。 如 果 一 次 查询 仅 涉及 小 表 的 一 小 部 分 列 ， 那 么 只 有 这 部 分 列 的 数据 会 占用 
相应 的 内 存 。 

。 小 表 的 数据 会 分 发 到 每 一 个 impalad。 这 就 意味 着 ， 数 据 分 发 会 经 由 网 络 ， 导 致 查询 的 
吞吐 量 受 限 于 集群 带宽 。 

。 Impala 使 用 基于 代价 的 优化 器 (cost-based optimizer) 评估 表 的 大 小 ， 判 断 哪 一 张 表 较 
小 以 及 对 应 的 哈 希 表 会 需要 多 少 内 存 ， 从 而 决定 是 否 进行 广播 式 关联 。 如 果 基 于 代价 的 
优化 器 能 够 了 解 查询 中 各 个 表 的 大 小 ， 它 就 可 以 生成 更 为 合理 的 查询 计划 。 因 此 ， 定 期 
收集 和 计算 数据 的 统计 信息 对 Impala 的 性 能 提升 很 有 帮助 。 



























































Impala 后 台 程 序 Impala 后 台 程 序 Impala 后 台 程 序 














图 A-1: 广播 式 关联 中 的 小 表 缓 存 


es 
希 表 进行 比 对 。 每 一 个 impalad 会 处 理 较 大 数据 集 的 一 部 分 ， 首 先 扫描 数据 到 内 存 ， 然 后 
传 给 散 列 关联 廊 法 ， 如 图 A-2 所 示 。 






































Impala 后 台 程 序 











图 A-2: Impala 中 的 广播 式 关联 
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通常 情况 下 ， 每 个 impalad 会 尽量 从 本 地 磁盘 读 取 构 成 较 大 数据 集 的 数据 ， 以 减少 对 网 络 
的 使 用 。 此 时 较 小 数据 集 已 缓存 在 每 个 节点 中 ， 该 阶段 已 无 网 络 传输 开销 。 不 过 ， 如 果 关 




















联 后 的 结果 集 需要 参与 查询 计划 后 续 的 其 他 关联 操作 ， 这 里 也 会 发 生 额 外 的 网 络 传输 。 
A-2 假定 只 有 单个 关联 操作 发 生 。 


A.2 分 区 后 散 列 关联 











图 


分 区 后 散 列 关联 会 产生 更 多 网 络 活动 ， 不 过 大 数据 集 可 进行 关联 ， 而 不 必 有 一 整 张 表 放 和 置 
于 单个 节点 。 如 果 统 计数 据 表明 该 表 数 据 过 多 ， 无 法 放置 于 单个 市 点 内 存 中 ,或 者 一 个 查 














询 中 添加 了 提示 ， 要 进行 分 区 后 散 列 关联 操作 ， 该 关联 策略 就 会 使 用 。 











当 执 行 分 区 后 散 列 关联 操作 (hash join， 也 称 shuffle join) 时 ， 每 一 个 impalad 会 读 二 者 





中 较 小 的 表 的 本 地 数据 ， 使 用 一 个 散 列 函 数 对 其 进行 分 区 ， 然 后 将 每 个 分 区 发 送 到 不 同 的 





impalad 中 。 


如 图 A-3 所 示 ， 分 区 后 散 列 关 联 与 广播 式 关 联 不 同 。 前 者 每 一 个 节点 缓存 数据 集 的 一 个 子 集 ， 








而 后 者 的 每 一 个 节点 均 存 储 整 个 数据 集 。 由 此 ， 你 可 以 更 为 高 效 地 使 用 集群 的 内 存 资源 。 








2 












图 A-3: 在 分 区 后 散 列 关联 中 ， 小 表 的 数据 缓存 图 解 


























图 A-4 展示 了 分 区 后 散 列 关联 的 具体 执行 过 程 。 图 中 有 三 个 impalad， 为 了 便于 解释 ， 我 
门 只 关注 其 中 的 一 个 impalad。 但 你 要 知道 ， 所 有 的 impalad 都 会 执行 类 似 的 操作 。 
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图 A-4: Impala 中 的 分 区 后 散 列 关联 


如 图 所 示 ， 较 大 的 表 也 会 使 用 相同 的 散 列 函数 形成 不 同 的 分 区 ， 将 数据 发 送 到 对 应 的 市 
点 ， 在 各 个 节点 上 执行 关联 操作 ， 与 小 表 的 数据 进行 匹配 过 翔 。 注 意 ， 广 播 式 关联 只 在 网 
络 上 发 生 一 次 数据 分 发 。 而 进行 分 区 后 散 列 关联 时 ， 两 个 表 的 数据 会 在 多 个 节点 间 分 发 ， 
网 络 传输 开销 更 大 。 

总 结 一 下 ，Impala 有 两 种 关联 策略 : 广播 式 关联 与 分 区 后 散 列 关联 。 前 者 需要 相对 较 多 的 
内 存 ， 只 适合 存在 小 表 的 应 用 场景 ， 后 者 则 会 占用 较 多 的 网 络 资 源 ， 查 询 会 慢 一 点 ， 但 是 
适用 于 大 表 的 应 用 场景 。 


Impala 支持 在 SQL 语句 中 添加 提示 [BROADCAST] 或 [SHUFFLE]， 以 明确 选用 哪 种 关联 策略 。 
代码 示例 如 下 。 
select 


from foo f join [BROADCAST] bar b 
on f.bar_id = b.bar_id 


但 是 ， 我 们 不 推荐 在 SQL 中 使 用 提示 ， 因 为 这 会 导致 将 关联 策略 硬 编码 到 查询 语句 中 。 一 
张 表 也 许 最 初 是 小 表 ， 但 其 数据 量 可 能 会 增 大 ， 这 样 一 来 使 用 [BROADCAST] 提示 就 不 再 合 
适 了 。Impala 查询 出 错 的 一 个 常见 的 原因 就 是 广播 式 关 联 将 过 大 的 表 进 行 分 发 ， 导 致 内 存 
不 足 。 这 种 情况 应 该 使 用 分 区 后 散 列 关联 。 
一 个 更 好 的 做 法 是 允许 Impala 自行 选择 关联 策略 。 要 做 到 这 一 点 ， 就 需要 收集 数据 的 统计 
信息 。 通 过 以 下 命令 可 以 实现 该 目标 (以 下 语句 Inpala 语法 不 支持 ， 应 当 是 COMPUTE ， 
译 者 注 )。 

ANALYZE TABLE <Ttable> COMPUTE STATS <Ttable>; 
该 指令 可 以 触发 Impala 的 扫描 操作 ， 并 就 数据 量 和 数据 分 布 进 行 统计 层面 的 信息 收集 。 从 
而 允许 Impala 自行 选择 关联 策略 ， 以 优化 查询 性 能 。 如 果 一 张 表 有 超过 10% 的 内 容 发 生 
了 更 新 ， 则 推荐 对 该 表 执 行 以 上 指令 。 
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作者 简介 














Mark Grover Apache Sentry 项 目 管理 委员 会 成 员 ,《Hive 编程 指南 》 作 者 之 一 ， 曾 参 
与 Apache Hadoop、Apache Hive、Apache Sqoop 以 及 Apache Flume 等 项 目 ， 并 为 Apache 
Bigtop 项 目 和 Apache Sentry (项 目 孵 化 中 ) 项 目 贡献 代码 。 


Ted Malaska ”Cloudera 公司 的 资深 解决 方案 架构 师 ， 致 力 于 帮助 客户 更 好 地 掌握 Hadoop 
及 其 生态 系统 。 曾 任 美国 金融 业 监管 局 首席 架构 师 ， 指 导 建 设 了 包括 网 络 应 用 、 服 务 型 架 
构 以 及 大 数据 应 用 在 内 的 大 量 解决 方案 。 曾 为 Apache Flume、Apache Avro、YARN 以 及 
Apache Pig 等 项 目 贡献 代码 。 


Jonathan Seidman Cloudera 公司 的 解决 方案 架构 师 ， 协 助 合作 伙伴 将 的 解决 方案 集成 到 
Cloudera 的 软件 栈 中 。 芝 加 哥 Hadoop 用 户 组 及 芝加哥 大 数据 的 联合 创始 人 《Hadoop 实 
战 》 技 术 编 辑 。 曾 任 Orbiz Worldwide 公司 大 数据 团队 技术 主管 ， 为 最 为 繁忙 的 站 点 管理 
了 承载 海量 数据 的 Hadoop 集群 。 也 曾 多 次 在 Hadoop 及 大 数据 专业 会 议 上 发 言 。 

Gwen Shapira Cloudera 公司 的 解决 方案 架构 师 ， 知 名 博 主 ， 拥 有 15 年 从 业经 验 ， 协 助 
客户 设计 高 扩展 性 的 数据 架构 。 曾 任 Pythian 高 级 顾问 、Oracle ACE 主管 以 及 NoCOUG 董 
事 会 成 员 , 活跃 于 诸多 业内 会 议 。 
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封面 介绍 





本 书 封面 动物 为 海牛 (海牛 科 )， 现 存 的 三 种 海牛 分 别 是 ， 亚 马 孙 海牛 、 西 印度 海牛 与 西 
非 海牛 。 

海牛 是 纯粹 的 水 生 哺乳 动物 ， 重 达 1300 磅 。 这 个 名 字 来 源 于 泰 诺 (Taino) 语 ， 意 为 “ 乳 
房 。 人 们 认为 这 种 动物 的 祖先 是 6000 万 多 年 前 的 四 是 陆 生 哺乳 动物 ， 与 大 象 和 岩 狸 是 近 
亲 。 

虽然 只 生活 在 水 下 ,但 海牛 通常 长 有 粗糙 的 毛发 和 胡须 。 它 们 厚 厚 的 皮肤 布 满 皱纹 ， 卷 1 
的 上 唇 可 以 用 来 收集 食物 。 海 牛 是 食 草 动物 ， 大 部 分 时 间 都 在 砚 食 谈 水 中 或 海水 中 的 植 
物 。 它 们 尤其 喜欢 漂浮 的 风 信 子 、 梭 鱼 草 、 水 浮 血 和 红 树 叶 。 海 牛 的 上 唇 可 以 分 成 左右 两 
片 ， 二 者 可 以 独立 运动 ， 在 咀嚼 进食 时 ， 嘴 唇 甚至 可 以 将 植物 撕 开 。 

海牛 通常 独居 ， 寻 找 配偶 或 护理 幼体 的 时 期 除外 。 它 们 会 发 出 各 种 各 样 的 声音 进行 交流 ， 
这 与 海豚 和 海豹 的 沟通 方式 类 似 。 海 牛 能 够 从 事 较 为 复杂 的 相关 性 学 习 ， 执 行 简单 的 任 


务 。 


海牛 在 野外 没有 天 敌 ， 它 们 最 大 的 威胁 来 自 人 类 一 一 船只 碰撞 、 水 质 污染 以 及 栖息 地 破 
坏 。 船 只 对 海牛 的 伤害 非常 普遍 。 在 2008 年 ， 大 西 详 中 部 有 四 分 之 一 的 海牛 因此 趟 生 。 
此 外 ， 还 有 很 多 海牛 严重 受伤 ， 留 下 疤痕 。 三 种 海牛 均 已 列 入 世界 自然 保护 联盟 (World 
Conservation Union) 的 濒临 灭绝 动物 名 单 。 

登 上 O’Reilly 图 书 封面 的 许多 动物 都 已 濒临 天 绝 。 它 们 在 这 世上 弥 足 珍贵 。 要 知道 如 何 为 
保护 动物 贡献 自己 的 一 份 力量 ， 请 访问 animals.oreilly.com。 


封面 图 片 来 自 《 布 罗 克 豪 斯 百科 全 书 》 (Brockhaus Zexicom) 。 
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延 展 阅 读 


本 书 是 一 本 循序 渐进 的 指导 手册 ， 重 点 介绍 了 Hadoop 的 高 级 概念 和 特性 。 内 容 涵盖 
了 Hadoop 2.X 版 的 改进 ，MapReduce、Pig 和 Hive 等 的 优化 及 其 高 级 特性 ，Hadoop 
2.0 的 专属 特性 ( 如 YARN 和 HDFS 联 合 ) ， 以 及 如 何 使 用 Hadoop 2.0 版 本 扩展 Hadoop 
的 能 力 。 
























































书号 : 978-7-115-41105-1 

定价 : 49.00 元 

网 络 上 的 数据 量 越 来 越 大 ， 单 靠 浏览 网 页 获取 信息 越 来 越 困 难 ， 如 何 有 效 地 提取 并 
利用 信息 已 成 为 一 个 巨大 的 挑战 。 本 书 采用 简洁 强大 的 Python 语 言 ， 全 面 介绍 网 络 
数据 采集 技术 ， 教 你 从 不 同形 式 的 网 络 资源 中 自由 地 获取 数据 。 





































Python 
网 络 数据 采集 


书号 : 978-7-115-41629-2 

定价 : 59.00 元 
二 图 本 书 是 数据 仓库 之 父 Inmon 的 新 作 ， 探 讨 数据 的 架构 和 如 何在 现 有 系统 中 最 有 效 地 
水 D 利用 数据 。 本 书 的 主题 涵盖 企业 数据 、 大 数据 、 数 据 仓库 、Data Vault、 业 务 系统 
数据 架构 
大 数据 、 数 据 仓库 以 及 Data Vault 























和 架构 。 主 要 内 容 包括 : 在 分 析 和 大 数据 之 间 建 立 关 联 ， 如 何 利 用 现 有 信息 系统 ， 
如 何 导出 重复 型 数据 和 非 重 复 型 数据 ， 大 数据 以 及 使 用 大 数据 的 商业 价值 ， 等 等 。 




















书号 : 978-7-115-43843-0 

定价 : 69.00 元 

本 书 全 面 介绍 了 微服 务 的 建 模 、 集 成 、 测 试 、 部 团 和 监控 ， 通 过 一 个 虚构 的 公司 
解 了 如 何 建立 微服 务 架构 。 主 要 内 容 包 括 认 识 微 服务 在 保证 系统 设计 与 组 织 目 标 统 
一 上 的 重要 性 ， 学 会 把 服务 集成 到 已 有 系统 中 ， 采 用 递增 手段 拆 分 单 块 大 型 应 用 ， 
通过 持续 集成 部 署 微 服务 ， 等 等 。 




























































































书号 : 978-7-115-42026-8 
定价 : 69.00 元 
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延 展 阅 读 


。 掌握 自动 配置 和 起 步 依赖 ， 学 会 用 很 少 的 显示 配置 构建 完整 的 Spring 应 用 程序 
。 了 解 如 何 为 Spring Boot 应 用 程序 编写 自动 化 集成 测试 

。 开发 Spring Boot CLI 应 用 程序 

。 探秘 Actuator 的 Web 端 点 、 远 程 shell 和 JMX MBean 

。 自如 部 署 各 种 Spring Boot 应 用 程序 





和 书号 : 978-7-115-43314-5 

定价 : 59.00 元 

me 本 书 作者 基于 自身 的 工作 经 验 ， 结 合 具体 的 实例 ， 以 轻松 的 语气 探讨 了 团队 成 功 的 
关键 因素 ， 并 阐述 了 如 何 克 服 团队 中 的 工程 和 人 际 问 题 ， 让 团队 成 员 可 以 将 更 多 精 
力 和 时 间 投 入 产品 创造 中 。 



































书号 : 978-7-115-43418-0 
定价 : 45.00 元 





























二 一 | ， 本 书 为 了 解数 据 可 视 化 的 重要 内 容 和 功能 提供 了 多 学 科 的 视角 ， 通 过 各 种 各 样 的 案例 
润 悉 数据 “| 。 分析, 来 演示 可 视 化 如 何 让 数据 变 得 更 清晰 、 更 全 面 ， 通 过 对 数据 可 视 化 的 广泛 用 途 
eet 和 适用 性 的 讨论 ， 来 了 解 它 如 何 让 数据 变 得 更 加 让 人 容易 接受 和 理解 。 





书号 : 978-7-115-41470-0 
定价 : 69.00 元 





。 云 网 络 背景 概述 ， 阐 述 了 原 有 网 络 技术 如 何 向 分 布 式 、 基 于 云 的 网 络 发 展 
。 训 析 云 网 络 关键 组 件 ， 交换 结构 技术 ， 拓 扑 结构 ， 网 络 标准 

,iW 。 了 解 架 构 的 发 展 、 高 性 能 计算 、 大 数据 分 析 等 ， 展 望 云 网 络 数据 中 心 的 未 来 
vs 人 | ”。 展示 英特尔 公司 网 络 团队 的 前 沿 交换 结构 技术 细节 


EB 
“雪人 


由 英特尔 专家 提 写 ， 让 讼 者 兴 旨 去 网 络 基本 钦 硬 件 设施 
和 设计 方法 ， 了 解 去 数据 中 心 必 展 的 
































书号 : 978-7-115-40518-0 
定价 : 49.00 元 
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微 信 连 接 





回复 “分 布 式 ” 查看 相关 书 单 


微 博 连接 
关注 @ 图 灵 教 育 每 日 分 享 |T 好 书 
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QQ 连接 
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灵 读 者 官方 群 I: 218139230 
灵 读 者 官方 群 I: 164939616 
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OREILLY 





Hadoop 应 用 架构 


本 书 就 使 用 Apache Hadoop 端 到 端 数 据 管 理 方案 提供 专业 架构 指导 。 其 
他 书籍 大 多 针对 Hadoop 生 态 系统 中 的 软件 ， 讲 解 较 为 单一 的 使 用 方法 ， 
而 本 书 偏重 实践 ， 在 架构 的 高 度 详细 冰释 诸多 工具 如 何 相 互 配合 ， 搭 建 
出 打磨 之 后 的 完整 应 用 。 书 中 提供 了 诸多 案例 ， 易 于 理解 ， 配 有 代码 解 
析 ， 知 识 点 一 目 了 然 。 





为 加 强 训练 ， 本 书后 半 部 分 内 容 深 入 讲解 案例 ， 涵 盖 最 为 常见 的 Hadoop 
应 用 架构 。 无 论 是 设计 Hadoop 应 用 ， 还 是 将 Hadoop 同 现 有 数据 基础 架 
构 集成 ， 本 书 都 可 以 提供 详实 的 参考 。 


罩 使 用 Hadoop 进 行 数据 存储 和 建 模 的 着 眼 点 和 思 
将 数据 输入 、 输 出 系统 的 最 佳 方案 

MapReduce、Spark 和 Hive 等 数据 处 理 框 架 介 绍 
数据 去 重 、 窗 口 分 析 等 常见 Hadoop 处 理 模 式 应 用 
在 Hadoop 上 采用 Giraph、GraphX 等 图 形 处 理工 具 
综合 使 用 工作 流 以 及 Apache Oozie 等 调度 工具 


以 Apache Oozie、Apache Spark Streaming 和 Apache Flume 进 行 
近 实 时 流 处 理 
是 点 击 流 分 析 、 欺 诈 检 验 和 数据 仓库 的 架构 案例 


DATABASES 


封面 设计 : Ellie Volckhausen 马 冬 燕 


图 灵 社 区 : iTuring.cn 
热线 : (010)51095186 转 600 


| 分 类 建议 | 计算 机 / 数据库 
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Mark Grover 
Apache Sentry 项 目 管理 委员 会 
成 员 ，Hadoop 等 多 个 Apache 项 





目的 代码 贡献 者 ，《Hive 编 程 
指南 》 作 者 之 一 。 

Ted Malaska 
Cloudera 资 深 解决 方案 架构 师 ， 
致力 于 帮助 客户 更 好 地 掌握 
Hadoop 及 其 生态 系统 。 


Jonathan Seidman 
Cloudera 解 决 方案 架构 师 ， 协 助 
合作 伙伴 将 解决 方案 集成 到 
Cloudera 的 软件 栈 中 。 


Gwen Shapira 
Cloudera 解 决 方案 架构 师 ， 知 名 
博 主 ， 拥 有 15 年 从 业经 验 ， 协 
助 客户 设计 高 扩展 性 的 数据 架 
构 。 
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看 完了 


如 果 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@turingbook.com， 会 有 编辑 
或 作 译 者 协助 答疑 。 也 可 访问 图 灵 社 区 ， 参 与 本 书 讨 论 。 


如 果 是 有 关 电 子 书 的 建议 或 问题 ， 请 联系 专用 客服 邮箱 : 


ebook@turingbook.com。 
在 这 可 以 找到 我 们 : 


微 博 @ 图 灵 教育 : 好 书 、 活 动 每 日 播报 

微 博 @ 图 灵 社 区 : 电子 书 和 好 文章 的 消息 

微 博 @ 图 灵 新 知 : 图 灵 教 育 的 科普 小 组 

微 信 图 灵 访 谈 : ituring_interview， 讲 述 码 农 精彩 人 生 
微 信 图 灵 教 育 : turingbooks 
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